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机 器 学 习 是 使 计算 机 县 有 智能 的 根本 途径 ， 其 应 用 遍及 人 工 智能 的 各 个 领域 。 无 监督 
学 习 是 机 器 学 习 中 的 一 种 学 习 方 式 ， 是 数据 科学 的 一 个 重要 分 支 ， 常 用 于 数据 挖掘 领域 ， 
通过 构建 模型 来 为 业务 决策 提供 依据 。 
本 书 通过 Python 语言 讲解 无 监督 学 习 ， 全 书 内 容 包括 10 章 ， 前 面 9 章 由 浅 入 深 地 讲 
解 了 无 监督 学 习 的 基础 知识 、 聚 类 的 基础 知识 、 高 级 聚 类 、 层 次 聚 类 、 软 聚 类 和 高 斯 混合 
模型 、 异 常 检测 、 降 维和 分 量 分 析 、 无 监督 神经 网 络 模型 、 生 成 式 对 抗 网 络 和 自 组 织 映射 ， 
第 10 章 以 问题 解答 的 形式 对 前 面 9 章 涉 及 的 问题 给 出 了 解决 方案 。 
本 书 适合 数据 科学 家 、 机 器 学 习 从 业者 和 普通 的 软件 开发 人 员 阅 读 ， 通 过 学 习 本 书 介 
的 无 监督 学 习 理论 和 Python 编程 方法 ， 读 者 能 够 在 业务 实践 中 获得 有 价值 的 参考 。 
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目 源 ， 重 庆 交 通 大 学 交通 运输 工程 硕士 。 以 交通 行业 为 深耕 领域 ， 主 要 涉及 该 行业 的 
大 数据 、 数 据 安全 、 数 据 分 析 。 结 合 工作 经 验 ， 目 前 钻研 机 器 学 习 、 人 工 智能 、 数 据 挖 掘 


等 领域 。 


刘 江 峰 ， 重 庆 大 学 软件 工程 硕士 。 技 术 出 喘 ， 工 作 涉及 电 商 、 物 流 、 旅 游 、 金 融 等 领 
域 ， 对 相关 的 技术 和 数据 等 板块 有 深入 的 了 解 。 早 期 以 电 商 垂直 领域 为 行业 背景 ， 涉 猫 大 
数据 、 数 据 挖掘 等 技术 领域 。 目 前 工作 涉及 金融 领域 ， 主 要 的 业务 方向 为 结合 机 器 学 习 、 
区 块 链 等 技术 的 业务 平台 。 
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朱 塞 佩 : 博 纳 科 尔 索 (“Giuseppe Bonaccorso) 是 人 工 智能 、 数 据 科学 和 机 器 学 习 领 域 
的 资深 从 业 人 员 。 他 曾 参 与 了 不 同业 务 环境 下 的 解决 方案 设计 、 管 理 和 交付 。 他 于 2005 年 
在 意大利 的 卡 塔 尼 亚 大 学 (University of Catania) 获得 电子 工程 学 硕士 学 位 ， 并 继续 在 意 
利 罗马 第 二 大 学 (University of Rome Tor Vergata) 和 英国 埃 塞 克 斯 大 学 (University of Essex ) 
学 习 。 他 的 兴趣 主要 包括 机 器 /深度 学 习 、 强 化 学 习 、 大 数据 ， 以 及 受 生 物 启 发 的 自 适 应 系 
统 、 神 经 科学 和 自然 语言 处 理 等 。 
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切 波 比 (Chiheb Chebbi) 是 信息 安全 的 爱好 者 、 作 家 和 技术 评论 员 ， 在 信息 安全 的 各 
个 方面 拥有 丰富 经 验 。 他 的 兴趣 主要 在 于 渗透 测试 、 机 器 学 习 等 。 目 前 他 已 被 列 入 许多 名 
人 堂 ， 他 所 提出 的 建议 已 被 许多 世界 级 的 信息 安全 会 议 所 接受 。 
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无 监督 学 习 是 数据 科学 中 一 个 重要 的 分 支 ， 其 目标 是 训练 用 于 学 习 数 据 集结 构 的 模型 ， 
并 为 用 户 提供 关于 新 样本 的 有 用 信息 。 在 许多 不 同 的 业务 部 门 〈 如 市 场 营 销 、 商 业 智 能 、 
战略 等 ) 中 ， 无 监督 学 习 一 直 在 帮助 管理 者 根据 定性 和 定量 〈 最 重要 的 ) 方法 做 出 最 佳 决 
策 。 在 数据 变 得 越 来 越 普遍 上 且 存 储 成 本 不 断 下 降 的 今天 ， 分 析 真 实 、 复 杂 数 据 集 的 可 能 性 
有 助 于 将 传统 的 商业 模式 转变 为 新 的 、 更 准确 的 、 响 应 也 更 迅速 、 更 有 效 的 模式 。 因 为 要 
关注 所 有 方法 的 优 缺 点 ， 并 增加 对 每 个 特定 领域 的 最 佳 潜在 策略 的 了 解 ， 所 以 数据 科学 家 
对 很 多 可 能 性 还 没有 一 个 清晰 的 认识 。 本 书 不 是 一 个 详尽 的 资源 (实际 上 也 不 可 能 有 )， 而 
是 一 种 参考 ， 让 你 开始 探索 这 个 世界 ， 为 你 提供 可 以 立即 使 用 和 可 供 评 估 的 不 同方 法 。 我 
希望 不 同 背景 的 读者 都 能 够 学 到 有 价值 的 东西 来 改善 业务 ， 并 且 和 希望 你 对 无 监督 学 习 这 个 
有 趣 的 主题 有 更 多 的 研究 ! 


目标 读者 
































































































































































































































































































































本 书 的 目标 读者 是 数据 科学 家 〈 有 抱负 且 专 业 的 )、 机 器 学 习 实践 者 和 开发 人 员 ， 他 们 
想 要 学 习 如 何 实施 最 常见 的 无 监督 学 习 算法 并 优化 参数 ， 为 来 自 所 有 业务 领域 的 不 同 利益 
相关 者 提供 有 价值 的 见解 。 


本 书 内 容 


第 1 章 ， 无 监督 学 习 入 门 ， 从 非常 务实 的 角度 介绍 机 器 学 习 和 数据 科学 。 本 章 讨论 主 
要 的 概念 并 展示 一 些 简 单 的 例子 ， 重 点 关注 无 监督 学 习 的 问题 结构 。 

































































































































































第 2 章 ， 聚 类 基础 知识 ， 开 始 对 聚 类 算法 进行 探索 。 本 章 分 析 最 常见 的 方法 和 评 佑 指 
标 ， 以 及 演示 如 何 调 整 超 参 数 并 从 不 同 角度 评估 性 能 的 具体 示例 。 
第 3 章 ， 高 级 聚 类 ， 讨 论 一 些 更 复杂 的 算法 。 本 章 对 第 2 章 中 分 析 的 许多 问题 使 用 更 
强大 、 更 灵活 的 方法 重新 评估 。 如 果 基 本 算法 的 性 能 不 符合 要 求 , 就 需要 使 用 这 些 高 级 算法 。 
第 4 章 ， 实 操 中 的 层次 聚 类 ， 致 力 于 介绍 一 系列 算法 ， 可 根据 特定 标准 计算 完整 的 聚 
类 层次 结构 。 本 章 分 析 最 常见 的 策略 以 及 可 提高 方法 有 效 性 的 特定 性 能 指标 和 算法 变 体 。 
第 5 章 ， 软 聚 类 和 高 斯 混合 模型 ， 侧 重 于 一 些 著 名 的 软 聚 类 算法 ， 特 别 强调 高 斯 混合 ， 
它 允 许 在 非常 合理 的 假设 下 定义 所 生成 的 模型 。 
第 6 章 ， 异 常 检测 ， 讨 论 了 无 监督 学 习 的 特定 应 用 新 值 和 异常 值 检 测 。 本 章 的 目的 
是 分 析 一 些 可 以 有 效 使 用 的 常用 方法 ， 以 便 了 解 新 样本 是 否 可 以 被 视 为 有 效 样本 ， 或 者 是 
否 有 需要 特别 注意 的 异常 值 。 
第 7 章 ， 降 维 与 分 量 分 析 ， 涵 盖 了 降 维 、 分 量 分 析 和 字典 学 习 相关 的 常用 且 强 大 的 方 
法 。 这 些 示例 展示 了 如 何在 不 同 的 特定 场景 中 有 效 地 执行 此 类 操作 。 
第 8 章 ， 无 监督 神经 网 络 模型 ， 讨 论 了 一 些 非 常 重 要 的 无 监督 神经 网 络 模型 ， 特 别 是 
针对 可 以 学 习 通用 数据 生成 过 程 结构 的 网 络 以 及 执行 降 维 的 网 络 。 
第 9 章 ， 生 成 式 对 抗 网 络 和 自 组 织 映 射 ， 继 续 对 一 些 深 度 神经 网 络 进行 分 析 ， 这 些 神 
经 网 络 可 以 学 习 数 据 生成 过 程 的 结构 并 输出 从 这 些 过 程 中 抽取 的 新 样本 。 此 外 ， 本 章 还 讨 
论 了 一 种 特殊 的 网 络 〈 如 SOM)， 并 展示 了 一 些 实际 案例 。 


第 10 章 ， 问 题解 答 ， 针 对 本 书 各 章 的 问题 给 出 解答 。 


如 何 充 分 利用 本 书 











































































































































































































































































































































































































































































































本 书 需要 你 有 机 器 学 习 和 Python 编程 的 基本 知识 。 此 外 ， 为 了 充分 理解 书 中 所 有 的 理 
论 ， 还 需要 你 了 解 大 学 阶段 的 概率 论 、 微 积分 和 线性 代数 等 相关 知识 。 但 是 ， 不 熟悉 这 些 
知识 的 读者 也 可 以 跳 过 数学 讨论 ， 只 关注 实践 方面 的 内 容 。 在 需要 时 ， 你 可 以 参考 相关 论 
文 和 书籍 ， 以 便 更 深入 地 理解 复杂 的 概念 。 


使 用 约定 






































本 书 中 使 用 了 许多 文本 约定 。 
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CodeInText :表示 文本 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 
径 名 、 虚 拟 URL、 用 户 输 入 和 Twitter 句柄 。 举 例 说 明 :“ 将 下 载 的 WebStorm-10*.dmg 
磁盘 映像 文件 作为 系统 中 的 另 一 个 磁盘 挂 载 。” 























代码 块 设置 如 下 : 
XxX train = faces['images'] 
xX train = (2.0 * X train) - 1.0 


widthn = X train.shapel[1] 
height = X train.shape[2] 

















当 我 们 希望 引起 你 对 特定 部 分 的 注意 时 ， 相 关 的 行 或 整体 将 以 粗 体 显 示 : 


import tensorflow as tf 





session=tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 





粗 体 : 表示 新 术语 、 重 要 词 。 例 如 当 沫 单 或 对 话 框 中 的 单词 出 现在 正文 中 时 ， 要 用 粒 


体 显示 。 下 面 是 一 个 示例 : "Select System info from the Administration panel." 


i 警告 或 重要 说 明 图 示 ] 
【 ] 



























































~ ~、 
资源 与 支持 
本 书 由 异步 社区 出 品 ， 社 区 (https://www.epubit.com/) 为 您 提供 相关 资源 和 后 续 服 务 。 


配套 资源 

本 书 提供 配套 资源 ， 要 想 获 得 该 配套 资源 ， 请 在 异步 社区 本 书页 面 中 点 击 荐 23， 
跳 转 到 下 载 界面 ， 按 提示 进行 操作 即 可 。 注 意 : 为 保证 购书 读者 的 权益 ， 该 操作 会 给 出 相 
关 提 示 ， 要 求 输入 提取 码 进行 验证 。 

提交 勘误 

作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 
的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 

当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 点 击 “ 提 交 勘误 ”， 
输入 勘误 信息 ， 点 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 
确认 并 接受 后 ， 您 将 获 赠 异 步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 
或 奖品 。 















































日 难免 会 存在 玻 漏 。 欢 迎 您 将 发 现 
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写 书评 提交 勘误 





2 资源 与 支持 


与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 

如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 书 
名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 

如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 发 
邮件 给 我 们 ， 有意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 投稿 (直接 访问 www.epubit.com/ 
selfpublish/submission 即 可 )。 

如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 也 可 
以 发 邮件 给 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 图 书 全 部 
或 部 分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举动 是 
对 作者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 


关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书社 区 ， 致 力 于 出 版 精品 IT 技术 图 书 和 
相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社区 创办 于 2015 年 8 月 ， 提 供 大 量 精 品 
IT 技术 图 书 和 电子 书 ， 以 及 高 品质 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 
https:/www.epublit.com 。 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 的 品牌 ， 依 托 于 人 民 
邮电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 , 相关 图 书 在 封面 上 印 有 异步 图 
书 的 LOGO。 异 步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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第 9 章 en en a de II 
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六 各 廊 加 总 剖 硬 才 好 有 吉 旭 











在 本 章 中 ， 我 们 将 介绍 基本 的 机 器 学 习 概 念 ， 并 假设 你 已 经 具备 统计 学 和 概率 论 的 一 
些 基 础 知识 。 你 将 从 本 章 了 解 机 器 学 习 的 用 途 ， 并 增强 关于 数据 集 本 质 和 属性 知识 的 逻辑 
过 程 。 整 个 过 程 骨 在 构建 可 以 支持 业务 决策 的 描述 性 以 及 预测 性 模型 。 


无 监督 学 习 的 目的 是 为 数据 探索 、 挖 掘 和 生成 提供 工具 。 在 本 书 中 ， 你 将 通过 具体 的 
示例 和 分 析 探 索 不 同 的 场景 ， 并 且 学 习 应 用 基本 的 以 及 更 复杂 的 算法 来 解决 特定 问题 。 


在 这 个 导论 性 的 章节 中 ， 我 们 将 讨论 以 下 内 容 。 
。 为 什么 我 们 需要 机 器 学 习 ? 

。 描述 性 、 诊 断 性 、 预 测 性 和 规范 性 分 析 。 

。 机 器 学 习 的 类 型 。 


。 我 们 为 什么 要 使 用 Python? 


1.1 技术 要 求 
















































































































































































本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+〔 强 烈 推 荐 Anaconda 发 行 版 )。 
。 库 。 

nm SciPy 0.19+。 





@ NumPy 1.10+。 


m SClklt-learn 0.19+。 


无 监督 学 习 入 门 
pandas 0.22+。 
Matplotlib 2.0+。 


seaborn 0.9+。 














示例 代码 可 在 本 书 配套 的 代码 包 中 找到 。 


1.2 为 什么 需要 机 器 学 习 





数据 无 处 不 在 。 此 时 此 多 









































里 1% 的 数 和 


局 。 出 于 这 个 原因 
器 中 。 





,成 干 上 万 的 系统 J 
j 户 交互 数据 ， 以 及 许多 其 他 相关 元 素 。 仅 如 
， 数 据 库 会 被 定期 清 























理 ， 
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而 现 如 今 ， 





王 . 


正 价值 又 是 什么 呢 ? 从 商业 角度 在 
供 更 好 的 情境 洞察 


说 只 会 



























































据 集 来 实现 现实 
将 只 关注 通过 寻找 隐藏 原因 














几乎 每 家 公司 都 可 以 利 有 
Apache Hadoop 或 Apache Spark 等 工具 允许 数据 科学 家 和 -了 
在 这 一 点 上 ， 所 有 的 障碍 都 被 扫除 ， 大 众 化 的 进程 已 经 到 位 。 然 而 ， 这 些 大 数据 集合 的 真 
助 于 做 出 正确 决策 、 减 少 不 确 定性 3 


>» 


对 才 有 价值 。 这 意 


和 关系 来 














E 在 收集 构成 特定 服务 的 历史 记录 、 
E 几 十 年 前 ， 大 多 数 公司 甚至 无 法 有 效 地 
重要 数据 才能 永久 存储 在 服 
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次 玖 


可 扩展 的 云 基础 架构 来 应 对 不 断 增长 的 数据 量 。 
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信息 只 有 在 























ij 实现 大 数据 的 复杂 传输 。 
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意味 着 ， 没 有 合适 的 工具 和 知识 ， 














增加 成 本 ， 需 要 限制 以 增加 利润 。 


机 器 学 习 是 计算 机 科学 特别 是 人 工 智 
FP 描 述 性 和 预测 性 的 模型 。 
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) 的 一 个 大 分 支 ， 其 目的 
于 本 书 致力 于 实用 的 无 监督 解决 方案 ， 我 们 





堆 数据 对 于 公司 来 














是 通过 利用 现 有 数 
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助 于 展示 机 器 学 习 问 题 之 间 的 主要 差异 ， 但 


日 
征 
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面 )， 才 能 对 最 初 的 问题 产生 理性 


口 
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Er o 


这 就 是 我 们 需要 机 器 学 习 的 





已 
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我 们 可 以 说 人 类 非凡 的 认 知 全 
人 类 就 缺乏 分 析 技 能 了 。 例 如 ， 丸 

















到 
区 分 就 显得 不 那么 明显 了 。 
分 性 别 会 受到 某 些 因 素 的 PB 
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Bek 


























力 启发 了 许多 系统 , 但 
0 果 你 是 第 一 次 与 班级 学 生 见 面 的 老 好 
后 你 能 粗略 地 估计 女生 的 百分比 。i 
角 的 或 接近 实际 值 的 。 然 而 ， 如 果 我 们 将 全 校 所 有 人 
这 是 因为 所 有 学 生 在 课堂 上 都 是 一 
民 制 《例如 较 矮 的 人 会 被 较 高 的 人 让 挡 


4 况 的 算法 。 虽 然 仅 从 型 
有 对 目标 有 完全 的 认识 (不 











LE 论 角 度 出 发 ， 也 有 
局 限于 技术 方 


























原因 。 
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是 当 影 响 因 











通常 ， 即 便 是 对 两 个 或 更 多 人 做 
聚集 在 操场 来 


有 表示 








































































































可 以 认为 大 量 的 数据 通常 带 有 
的 方法 。 














大量 的 信息 。 为 了 提取 和 分 类 
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喇 CA 





目 了 然 的 ， 但 是 在 操场 里 
)。 抛 开 这 一 层 因 
我 们 有 必要 采取 自 


素 的 数量 显著 增加 时 ， 
if， 在 浏览 整个 小 组 
的 估算 ， 也 可 能 是 准 
E 复 这 个 实验 ， 性 别 的 


NIA 





























IX. 
素 ， 我 们 
| 动 化 


























1.2 为 什么 需要 机 器 学 习 3 


在 进入 
Analysis)、 























1.2.1 节 前 ， 让 我 们 讨论 一 下 最 初 由 高 德 纳 (Gartner) 定义 的 描述 性 分 析 (Descriptive 
诊断 性 分 析 (Diagnostic Analysis)、 预 测 性 分 析 (Predictive Analysis) 和 规范 性 




















分 析 (Prescriptive Analysis) 的 概念 。 但 是 ， 在 这 种 情况 下 ， 我 们 希望 关注 正在 分 析 的 系统 


(例如 通用 情况 )， 以 便 对 其 行为 进行 越 来 越 多 的 控制 。 








2 








描述 性 分 析 、 诊 断 性 分 析 、 预 测 性 分 析 和 规范 性 分 析 的 流程 如 图 1-1 所 示 。 








描述 性 分 析 。 ”诊断 性 分 析 。 预测 性 分 析 。。 规范 性 分 析 
系统 现在 如 ”。_、 为 什么 我 们 系统 将 来 如 ”，。_、 我 们 如 何 影 
E> 家 到 这 种 忆 》 一 ， 

行为 9 


何 工作 的 ? 何 运作 ? 响 行为 ? 














图 1-1 描述 性 分 析 、 诊 断 性 分 析 、 预 测 性 分 析 和 
规范 性 分 析 的 流程 











1.2.1 描述 性 分 析 


几乎 所 有 的 数据 科学 场景 中 要 解决 的 第 一 个 问题 都 是 了 解 其 本 质 。 我 们 需要 知道 系统 


如 何 工 作 或 
法 做 出 任何 
法 描述 发 现 
在 具体 情况 
同 特征 。 数 





’ 























(以 及 有 用 的 ) 的 问题 将 得 到 解答 。 


此 外 ， 
知识 并 将 其 
就 我 们 的 目 








的 独立 因素 。 





论 是 对 某 种 


该 能 够 解答 



































数据 集 描述 的 内 容 是 什么 。 如 果 没 有 这 种 分 析 ， 我 们 的 知识 又 是 有 限 的 ， 将 无 
假设 。 例 如 我 们 可 以 通过 图 表 观 察 一 个 城市 几 年 的 平均 温度 ， 但 是 如 果 我 们 无 
现象 的 相关 性 、 季 节 性 、 趋 势 性 的 时 间 序列 ， 其 他 任何 问题 就 不 可 能 被 解决 。 
下 ， 如 果 没 有 发 现 对 象 组 之 间 的 相似 性 ， 就 无 法 找到 一 种 方法 来 总 结 它们 的 共 
据 科学 家 必须 针对 每 个 特定 问题 使 用 特定 工具 ， 但 在 此 阶段 结束 时 ， 所 有 可 能 


















































































































































这 个 过 程 具有 明确 的 商业 价值 ， 让 不 同 的 利益 相关 者 参与 的 目的 是 收集 他 们 的 
转化 为 共同 语言 。 例 如 在 处 理 医疗 保健 数据 时 ， 医 生 可 能 会 谈论 遗传 因素 ， 但 
的 而 言 ， 最 好 是 某 些 样本 之 间 存 在 相关 性 ， 因 此 我 们 并 未 完全 将 它们 视 为 统计 上 
般 而 言 ， 描 述 性 分 析 的 结果 包含 所 有 度量 评估 和 结论 的 摘要 ， 这 些 评估 和 结 
情况 进行 限定 和 减少 不 确定 性 所 必需 的 。 在 温度 图 表 的 例子 中 ， 数 据 科 学 家 应 





























































































































自动 关联 、 峰 值 的 周期 、 潜 在 异常 值 的 数量 以 及 趋势 的 出 现 等 问题 。 
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1.2.2 ”诊断 性 分 析 


到 目前 为 止 ， 我 们 已 经 处 理 了 输出 数据 ， 这 是 在 特定 的 基础 流程 生成 之 后 观察 到 的 。 
系统 描述 的 自然 问题 与 很 多 因素 有 关 。 温 度 更 多 取决 于 气象 和 地 理 因 素 ， 这 些 因素 既 易 
于 观测 ， 又 可 以 完全 隐藏 。 时 间 序 列 中 的 季节 性 显然 受 一 年 中 的 周期 影响 ， 但 所 出 现 的 
常 值 又 该 如 何 解 释 呢 ? 
例如 我 们 在 一 个 处 于 冬季 的 地 区 发 现 了 一 个 温度 峰值 ， 我 们 怎样 才能 证 明 它 的 合理 
性 呢 ? 在 简单 的 方法 中 ， 我 们 可 以 将 其 视 为 可 过 滤 掉 的 噪声 异常 值 。 但 是 ， 如 果 该 值 已 
经 被 观察 到 并 且 有 存在 价值 (例如 所 有 各 方 都 认为 这 不 是 错误 )， 我 们 应 该 假设 存在 隐藏 
(或 潜在 ) 原因 。 


这 可 能 是 令 人 惊讶 的 ， 但 大 多 数 复杂 的 场景 都 具有 大 量 难 以 分 析 的 潜在 原因 (有 时 称 
为 因素 )。 总 的 来 说 ， 这 不 是 一 个 糟糕 的 情况 ,但 正如 我 们 将 要 讨论 的 那样 ， 将 它们 包含 在 
模型 中 并 通过 数据 集 了 解 它 们 的 影响 是 非常 重要 的 。 

男 一 方面 ， 决 定 丢 弃 所 有 未 知 元 素 意 味 着 降低 模型 的 预测 能 力 ， 并 且 会 成 比例 地 降低 
准确 性 。 因 此 ， 诊 断 分 析 的 主要 目标 不 一 定 是 找 出 所 有 因素 ， 而 是 列 出 可 观察 和 可 测量 的 
因素 (也 称 为 因子 )， 以 及 所 有 的 潜在 因素 (通常 概括 为 单个 全 局 因素 )。 

在 菜 种 程度 上 ， 因 为 我 们 可 以 轻松 监控 效果 ， 诊 断 分 析 通 常 类 似 于 逆向 工程 的 过 程 ， 
但 要 检测 潜在 原因 与 可 观察 效果 之 间 存 在 的 关系 就 较为 困难 。 因 此 这 种 分 析 通 常 是 概率 性 
的 ， 并 且 有 助 于 找 出 某 个 确定 的 原因 带 来 特定 影响 的 概率 。 这 样 ， 排 除非 影响 分 量 和 确定 
最 初 排除 的 关系 也 更 容易 。 然 而 ， 这 个 过 程 需要 更 深入 的 统计 学 知识 ， 除 了 一 些 例子 如 高 
斯 混合 之 外 ， 这 类 分 析 将 不 会 在 本 书 中 讨论 。 


1.2.3 ”预测 性 分 析 


如 果 收 集 了 整体 描述 性 知识 并 且 对 潜在 原因 的 认识 已 令 人 满意 ， 那 么 我 们 就 可 以 创建 
预测 模型 了 。 创 建 预测 模型 的 目的 是 根据 模型 本 身 的 历史 和 结构 来 推断 未 来 的 结果 。 在 许 
多 情况 下 ， 我 们 将 这 个 阶段 与 下 一 个 阶段 一 起 分 析 ， 因 为 我 们 很 少 对 系统 的 自由 演变 感 兴 
趣 ( 例 如 温度 将 在 下 个 月 如 何 变 化 )， 而 是 对 我 们 可 以 影响 输出 的 方式 感 兴趣 。 

也 就 是 说 , 我 们 只 关注 预测 ,考虑 最 重要 的 因素 。 第 一 个 需要 考虑 的 因素 就 是 流程 性 质 。 
我 们 不 需要 机 器 学 习 用 于 确定 性 过 程 ， 除 非 这 些 过 程 的 复杂 性 太 高 以 至 于 我 们 不 得 不 将 它们 
视 为 黑匣子 。 在 本 章 将 要 讨论 的 大 多 数 例子 都 是 无 法 消除 不 确定 性 的 随机 过 程 。 例 如 一 天 中 
的 温度 可 以 建 模 为 条 件 概率 《例如 高 斯 )， 有 基体 取决 于 前 面 的 观测 值 。 因 此 ， 预 测 不 是 将 系 
















































































































































































































































































































































































































































































































































































































































































































































































1.2 为 什么 需要 机 器 学 习 5 


统 变 为 确定 性 系统 ， 而 是 减少 分 布 的 方差 ， 使 概率 只 有 在 小 的 温度 范围 内 ， 才 会 很 高 。 另 外 ， 
正如 我 们 所 知 , 许多 潜在 因素 在 幕后 工作 , 该 选择 会 对 最 终 的 准确 定性 产生 极 大 的 不 利 影响 ， 
因此 不 能 接受 基于 尖峰 分 布 的 模型 (例如 基于 概率 为 1 的 单一 结果 )。 

如 果 模 型 被 参数 化 ， 变 量 受 学 习 过 程 影响 〈 例 如 高 斯 的 均值 和 协 方差 矩阵 )， 那 么 我 们 
的 目标 是 在 偏差 -方差 权衡 中 找 出 最 佳 平衡 。 由 于 本 章 只 是 概述 ， 我 们 不 用 数学 公式 讲解 概 
念 ， 只 需要 一 个 定义 即 可 (更 多 细节 可 以 在 Mastering Machine Learning Algorithms 一 书 中 
找到 )。 

定义 统计 预测 模型 的 常用 术语 是 估计 量 。 估 计量 偏差 受 不 正确 的 假设 和 学 习 过 程 可 测 
量 的 影响 。 换 句 话 说 ， 如 果 一 个 过 程 的 平均 值 是 5.0， 但 我 们 的 估计 量 平 均值 为 3.0， 那 就 
可 以 说 该 模型 是 有 偏差 的 。 考虑 到 前 面 的 例子 ， 如 果 观 测 值 和 预测 之 间 的 误差 不 为 零 ， 则 
我 们 使 用 有 偏 估计 。 重 要 的 是 要 理解 并 不 是 说 每 个 估计 都 必须 有 一 个 零 误差 ， 而 是 在 收集 
足够 的 样本 并 计算 均值 时 ， 它 的 值 应 该 非常 接近 零 ( 只 有 无 限 样本 才能 为 零 )。 当 它 大 于 零 
时 ， 就 意味 着 我 们 的 模型 无 法 正确 预测 训练 值 。 很 明显 ， 我 们 正在 寻找 无 偏 估 计量 ， 这 些 
估计 量 基 本 上 可 以 产生 准确 的 预测 。 
另 一 方面 ， 估 计量 方差 可 以 衡量 不 属于 训练 集 的 样本 的 鲁 棒 性 。 在 本 节 开 头 ， 我 们 提 
到 过 程 通常 是 随机 的 。 这 意味 着 任何 数据 集 都 必须 被 视 为 从 特定 数据 生成 过 程 pu 中 提取 
的 。 如 果 我 们 有 足够 的 代表 性 元 素 x;EX, 我 们 可 以 假设 使 用 有 限 数据 集 卫 训练 分 类 器 会 生 
成 一 个 模型 ， 该 模型 能 够 对 从 pga 中 提取 的 所 有 潜在 样本 进行 分 类 。 

例如 如 果 需 要 对 仪 限 于 肖像 的 面部 分 类 器 进行 建 模 (不 允许 进一步 的 面部 姿势 )， 那么 
我 们 可 以 收集 一 些 不 同 个 体 的 肖像 。 建 模 过 程 需 要 关注 的 是 不 排除 现实 生活 中 可 能 存在 的 
类 别 。 假 设 我 们 有 10000 张 不 同年 龄 和 性 别 的 人 物 免 冠 照片 ， 但 没有 任何 戴 帽子 的 肖像 。 
当 系 统 投 入 生产 时 ， 就 会 收 到 客户 打 来 的 电话 ， 反 映 系 统 对 许多 图 片 进行 了 错误 分 类 。 经 
过 分 析 ， 会 发 现 发生 错 误 分 类 的 是 戴 帽 子 的 人 。 显 然 ， 这 个 肖像 模型 对 错误 不 负责 ， 因 为 
它 用 仅 代表 数据 生成 过 程 的 一 个 区 域 的 样本 进行 训练 。 因 此 ， 为 了 解决 问题 ， 我 们 要 收集 
其 他 样本 ， 并 重复 训练 。 但 是 ， 现 在 我 们 决定 使 用 更 复杂 的 模型 ， 和 希望 它 能 更 好 地 运行 。 
结果 我 们 观察 到 更 差 的 验证 准确 性 〈 例 如 在 训练 阶段 未 使 用 子 集 的 准确 性 ) 以 及 更 高 的 训 
练 精度 。 这 里 发 生 了 什么 ? 

当 估 计量 学 会 完美 地 对 训练 集 进行 分 类 但 是 对 未 见 过 的 样本 分 类 能 力 较 差 时 ， 我 们 可 以 
说 它 是 过 拟 合 的 ， 并 且 其 方差 对 于 特定 任务 来 说 太 高 〈 反 之 ， 一 个 欠 拟 合 模型 则 具有 较 大 的 
偏差， 并 且 所 有 预测 都 非常 不 准确 )。 直 观 地 讲 ， 该 模型 对 训练 数据 过 于 了 解 ， 已 经 失去 了 
概括 能 力 。 为 了 更 好 地 理解 这 个 概念 ， 让 我 们 看 一 下 高 斯 数据 的 生成 过 程 ， 如 图 1-2 所 示 。 
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1-2 ”高 斯 数据 的 生成 过 程 ( 实 线 ) 和 样本 数据 的 直方 图 
如 果 训 练 集 没有 以 完全 统一 的 方式 ， 采样 或 者 部 分 不 平衡 ( 某 些 类 的 样本 比 其 他 类 少 )， 
或 者 模型 过 度 拟 合 ， 则 结果 可 能 由 不 准确 的 分 布 表 示 ， 如 图 1-3 所 示 。 











图 1-3 不 准确 的 分 布 
在 这 种 情况 下 ， 模 型 会 被 迫 学 习 训 练 集 的 细节 ， 直 到 它 从 分 布 中 排除 了 许多 潜在 的 样 
本 。 该 结果 不 再 是 高 斯 分 布 ， 而 是 双 峰 分 布 ， 此 时 一 些 概 率 会 偏 低 。 当 然 ， 测 试 和 验证 集 
是 从 训练 集 未 覆盖 的 小 区 域 中 采样 的 (因为 训练 数据 和 验证 数据 之 间 没 有 重 辣 )， 因 此 模型 
将 在 其 任务 中 失败 ， 从 而 提供 完全 错误 的 结果 。 
换 句 话说 ， 模 型 已 经 学 会 了 处 理 太 多 细节 而 导致 方差 太 高 ， 在 合理 的 闵 值 范围 内 增加 了 不 








同 分 类 的 可 能 性 范围 。 例 如 从 肖像 分 类 器 可 以 ] 
的 男性 (这 是 不 切实 际 的 情况 ， 因 为 细节 水 平 通常 非常 低 , 但 是 对 ] 
可 以 总 结 一 下 , 一 个 好 的 预测 模型 必须 具有 非常 低 的 偏差 和 
能 有 效 地 最 小 化 这 两 个 值 ， 因 
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通常 不 可 







































































是 你 应 该 完全 


器 ， 但 
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此 我 们 必须 接受 平衡 。 














《有 良好 泛 化 能 力 的 系统 可 能 
方差 允许 非常 小 的 偏差 ， 但 模型 的 
昌 解 这 些 概念 ， 





1.2.4 规范 性 分 析 


























有 较 高 的 1 
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因为 它 无 法 








具 
能 力 几乎 了 





于 训练 集 。 在 本 书 

















以 便 理 解 在 处 理 : 

















解 到 ， 戴 蓝 色 眼 镜 的 人 是 年 龄 范围 在 30 一 40 岁 
解 问题 的 本 质 是 有 


适当 低 的 方差 。 不幸 的 是 ， 























帮助 的 )。 














获 所 有 细节 。 相 反 ， 高 
中 ， 我 们 不 打算 讨论 分 类 



































硕 目 时 可 能 遇 到 的 不 同行 为 。 


这 样 做 的 主要 目的 是 回答 以 下 问题 ， 如 何 影响 系统 的 输出 ? 为 了 避免 混淆 ， 最 好 将 这 
个 概念 翻译 成 纯 机 器 学 习 语言 ， 因 此 问题 可 能 是 获得 特定 输出 需要 哪些 输入 值 ? 





如 1.2.3 节 所 述 , 此 阶段 通常 与 预测 性 分 析 合 3 
在 某 些 特定 情况 下 ,预测 仅 限于 空 输入 演变 (例如 在 温度 示例 中 )， 并 
的 模型 。 主 要 在 于 控 人 
有 时 ， 当 没有 必要 时 ， 我 们 就 
司 潜在 参数 集 更 简单 时 ， 训 
已 经 开发 了 许多 算法 ， 在 已 存在 潜在 
因 ， 我 们 并 没有 关注 



































析 更 复杂 

















当 包含 全 
并 
够 高 效 工作 。 出 于 这 个 原 





























同时 ， 我 们 隐 含 地 假设 模型 有 五 











捉 影 响 特定 输 


只 做 表面 分 析 。 当 原 















































的 所 有 








因素 。 






































FE 这 

















， 因为 模型 通常 用 于 这 两 个 任务 。 但 是 ， 














必须 在 规定 阶段 分 

















因 不 可 控 时 (例如 气象 事件 )， 或 者 
会 发 生 这 种 情况 。 后 一 种 选择 在 机 器 学 习 中 非常 普遍 ， 
因素 (例如 EM 或 SVD 推荐 系统 ) 的 情况 下 仍 能 
特定 方面 (这 在 系统 理 
究 不 同 输入 产生 许多 可 能 输出 的 能 力 。 























论 中 非常 重要 )， 














例如 在 深度 学 习 中 ， 我 们 可 以 创建 反 向 模型 来 生成 输入 空间 的 显著 映射 ， 从 而 强制 产 


生 特 定 的 输出 类 。 以 肖像 分 类 器 为 例 ,我 们 可 能 有 兴 








诊断 性 分 析 通 常 对 此 是 无 效 的 ， 








范 性 分 析 超 出 了 本 书 的 范 
续 章 节 中 考虑 这 样 的 步骤 。 
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在 这 一 节 , 我 们 将 简要 


在 接 下 来 的 部 分 中 ， 我 们 将 讨论 非 正式 定义 ， 以 及 
数学 概念 ， 则 可 以 跳 过 详细 人 信息。 但是， 研究 所 有 未 知 





介绍 不 同类 型 的 机 器 学 习 , 并 












































发 现 哪些 视觉 因 
因为 原因 非常 复杂 并 且 其 水 平 太 低 〈 例 如 轮廓 的 
此 ， 反 向 模型 可 以 通过 显示 不 同 几 何 区 域 的 影响 来 帮助 解决 规范 性 问题 。 然 而 ， 
围 ， 在 许多 情况 下 ， 也 没有 必要 使 用 规范 性 分 析 ， 因 
现在 让 我 们 来 分 析 不 同类 型 的 机 器 学 习 算 法 。 











素 会 影响 类 的 输出 。 
攻 状 )。 因 
完整 的 规 
此 不 会 在 后 






































Nk 
重点 关 y 


它们 的 主要 特点 和 差异 。 














E 式 定义 。 如 果 你 不 熟悉 讨论 中 涉及 的 


























的 理论 





因 











素 是 非常 明智 的 ， 因 为 它 





8 第 1 章 无 监督 学 习 入 门 
们 对 于 理解 后 面 章节 的 概念 至 关 重 要 。 
1.3.1 有 监督 学 习 算 法 


在 有 监督 的 场景 中 ， 模 型 的 任务 是 查找 样本 的 正确 标签 ， 假 设 在 训练 集 时 标记 正确 ， 
并 有 可 能 将 估计 值 与 正确 值 进行 比较 。 有 监督 这 个 术语 源 自 外 部 教学 代理 的 想法 ， 其 在 每 
次 预测 之 后 提供 精确 和 即时 的 反馈 。 模 型 可 以 使 用 此 类 反馈 作为 误差 的 度量 ， 从 而 减少 错 
误 所 需 的 更 正 。 

更 正式 地 说 ， 如 果 我 们 假设 一 个 数据 生成 过 程 ， 数 据 集 pj (Xx,y) 的 获取 如 下 : 


X={X, 7)},{%,y,), ,XNy, pny)}, 其 中 (元 ， yi) ~ Paaa (XY, J) 且 元 eR”, 
y; €(0,1,:…, M ) or y, e RR 


如 1.2 节 所 述 ， 所 有 样本 必须 是 从 数据 生成 过 程 中 统一 采样 的 独立 且 同 分 布 Independent 
and Identically Distributed，IID) 的 值 。 特 别 地 ， 所 有 类 别 必 须 代 表 实 际 分 布 〈 例 如 ， 如 果 
p(y=0)=0.4 且 ply=1)=0.6， 则 该 比例 应 为 40% 或 60%)。 但是， 为 了 避免 偏差 ， 当 类 之 间 的 
差异 不 是 很 大 时 , 合理 的 选择 是 完全 统一 的 采样 , 并 且 对 于 y= 1,2,…,M 是 具有 相同 数量 的 代表 。 


通用 分 类 器 c(x;9) 可 以 通过 两 种 方式 建 模 。 

。 输出 预测 类 的 参数 化 函数 。 

。 参数 化 概率 分 布 ， 输 出 每 个 输入 样本 的 类 概率 。 

对 于 第 一 种 情况 ， 我 们 有 : 
了 =c(xX;0)= f(xX;0) 且 4,(y,7) 是 一 个 错误 的 测量 

考虑 整个 数据 集成 可 以 计算 全 局 成 本 函数 亏 ; 
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区 
条 
































1 之 sx 
= ee 








由 于 工 仅 取决 于 参数 向 量 (x; 和 yi; 是 常数 )， 因此 通用 算法 必须 找到 最 小 化 成 本 函数 的 
最 佳 参 数 向 量 。 例 如 在 回归 问题 (标签 是 连 i ， 误差 度量 可 以 是 实际 值 和 预测 值 之 
间 的 平方 误差 : 




















1 ee ee Sg 
OO) 

这 种 成 本 函数 可 以 用 不 同 的 方式 优化 〈 特 定 算法 特有 的 )， 但 一 个 非常 常见 的 策略 〈 尤 

其 在 深度 学 习 中 ) 是 采用 随机 梯度 下 降 (Stochastic Gradient Descent，SGD ) 算法 。 它 由 


























1.3 ”机 器 学 习 算法 的 类 型 


以 下 两 个 步骤 的 迭代 组 成 。 
。 使 用 少量 样本 x;EX 计 算 梯度 VL (相对 于 参数 向 量 )。 
。 更 新 权 














zal 





























| 内 




















EE 并 在 梯度 的 相反 方向 上 移动 参数 -VL ( 记 住 渐变 始终 指向 最 大 值 )。 
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对 于 第 二 种 情况 ， 当 分 类 器 是 基于 概率 分 布 时 ,， 它 应 该 表示 为 参数 化 的 条 件 概 率 分 布 : 





c(x;0)= p($|x;0) 





换 句 话说 , 分 类 器 现在 将 输出 给 定 输入 向 量 y 的 概率 。 现 在 的 目 























它 将 获得 : 


万 (| 天 9) > p(y |7) 


标 是 找到 最 佳 参数 集 ， 

















在 前 面 的 公式 中 ， 我 们 将 pa 表示 为 条 件 分 布 。 我 们 可 以 使 





概率 明 























E 离 度量 来 ; 








行 优 


化 ， 例 如 Kullback-Leibler 散 度 Dk: (Dgzi 始终 为 非 钠 ， 且 仅 当 两 个 分 布 相同 时 ，Dxz=0): 


N 
L= Di (pall p)= pulyi|N)log 
i=l. 











通过 一 些 简 单 的 操作 ， 我 们 得 到 : 








Pasa (Yi | 元) 
p(y;|N;0) 


N N = 
L = 2 Pu 人 X) log pasa (yy; |[¥)— 2 pa ly |x)log p(y, |x;0) =—H(paa) + H(p, Pu) 
i=] i=l 


因此 ， 生 成 的 成 本 函数 对 应 于 p 和 pyar 之 间 交 叉 焙 的 差 值 达到 定 值 (数据 生成 过 程 的 
炉 )。 训 练 策略 现在 是 基于 使 用 独 热 编码 表示 的 标签 (例如 如 果 有 两 个 标签 0 一 (0,1) 和 1 一 
(1,0)， 那 么 所 有 元 素 的 总 和 必须 始终 等 于 1) 并 使 用 内 在 概率 《例如 在 逻辑 回归 中 ) 















































softmax 滤波 器 (其 将 MM 值 转换 为 概率 分 布 ) 输出 。 























或 



































在 这 两 种 情况 下 , 很 明显 隐藏 教师 模型 的 存在 提供 了 一 致 的 误差 测量 , 它 允 六 




















F 模 型 相应 地 





校正 参数 。 特 别 地 ， 第 二 种 方法 对 达到 我 们 的 目的 非常 有 用 ， 因 此 如 果 你 还 不 太 清 楚 ， 我 建议 











你 进一步 研究 它 (主要 定义 也 可 以 在 Machine Learning Algorithms, Second Edition 一 书 中 找到 

















1)。 














我 们 现在 讨论 一 个 非常 基本 的 监督 学 习 示例 ， 它 是 一 个 线性 回归 模型 ， 可 用 于 预计 





~| 


单 时 间 序 列 的 演变 。 


有 监督 的 hello world! 

















| 简 


在 此 示例 中 ， 我 们 要 展示 如 何 使 用 二 维 数据 执行 简单 的 线性 回归 。 特 别 地 ， 假 设 我 们 








有 一 个 包含 100 个 样本 的 自 定义 数据 集 ， 如 下 所 示 : 


import numpy as np 

















import pandas as pd 
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T = np.expand dims (np.linspace(0.0, 10.0, num=100), axis=1) 
X= (T * np.random.uniform(1.0, 1.5, size=(100, 1))) + 
np.random.normal (0.0, 3.5, size=(100, 1)) 


df = pd.DataFrame (np.concatenate([T, X], axis=1), columns=['t', 'x'"]) 


我 们 还 创建 了 一 个 pandas 的 DataFrame, 因为 使 用 seabom 
全 fis. ek, 
(使 用 Matplotlib 或 seaborn )， 但 它 始 终 存在 于 库 中 。 
我 们 希望 用 一 种 综合 的 方式 表示 数据 集 ， 如 下 所 示 ; 
X(t)=at+b 
此 任务 可 以 使 用 线性 回归 算法 执行 ， 如 下 所 示 : 


from sklearn.linear model import LinearRegression 





























lr = LinearRegression () 
,让 主 蕊 ( 叶 ;> 浆 ) 


print('x(t) = {0:.3f}t + {1:.3f}'.format (lr.coef [0] [0], lr.intercept [0])) 
最 后 一 个 命令 的 输出 如 下 : 
X(t) = 1.169t + 0.628 


我 们 还 可 以 将 数据 集 与 回归 线 一 起 绘 第 





4 


， 获 得 视觉 确认 ， 如 图 1-4 所 示 。 





二 





20 © 

















1-4 数据 集 与 回归 线 














差异 。 


在 该 示例 中 ， 
由 于 对 称 分 

















1.32 








4 








很 容易 想象 在 
预测 误差 无 关 。 实 际 上 ， 在 这 
实 上 ， 在 使 用 分 类 器 时 ， 我 们 希望 训练 样本 
其 他 类 永远 不 会 被 接受 为 正确 


1.3 ”机 器 学 习 算法 的 类 型 




















回归 算法 最 小 化 了 平方 误差 成 本 函数 ， 试 图 
布 ， 所 以 高 斯 ( 空 均值 噪声 对 斜率 的 





有 旦 . 


无 监督 学 习 算法 





























无 监督 的 场景 中 ， 没 有 隐藏 的 老师 ， 因 此 主要 目标 与 最 小 化 基本 事实 









































1 了 5 局 


上 月 是 






































类 )。 














下 ， 相 同 的 基本 事实 的 概念 具有 略微 不 同 的 含义 。 
8 现 一 个 零 错 误 《〈 这 意味 着 除了 真 了 









































































































































情 


























因此 ， 无 监督 算法 通常 

















欧 几 








里 得 















































里 : 





,Ne)} 
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减 小 预测 值 与 实际 值 之 间 的 
影响 最 小 。 


的 





4 


出 中 


E 类 之 外 的 


况 下 学 习 一 些 信息 。 
则 在 发 现 
自给 定 一 组 从 中 得 出 的 向 量 的 情况 下 ， 再 现 输 入 分 布 。 现 


特别 是 当 给 定 两 个 向 
空间 中 ， 则 有 : 








# 本 获得 





与 同一 聚 类 


相反 ， 在 无 监督 问题 中 ， 我 们 希望 模型 在 没有 任何 正式 指示 的 
这 种 情况 意味 着 唯一 可 以 学 习 的 因素 是 样本 本 身 包含 的 。 
样本 之 间 的 相似 性 和 模式 ， 或 者 
在 让 我 们 分 析 一 些 最 常见 的 无 监督 模型 类 别 。 
1.， 聚 类 分 析 
聚 类 分 析 (通常 称 为 聚 类 〉 是 我 们 想 要 找 出 大 量 样 本 中 共同 特征 的 示例 。 在 这 种 情 ; 
下 ， 我 们 总 是 假设 存在 数据 生成 过 程 p,, (xX)， 并 且 将 数据 集 了 定义 为 : 
了 = 全 , 石 ,…,XWy}, 其 中 天 ~ paws(X) 且 eR” 
聚 类 算法 基于 一 个 隐 含 假设 ， 即 样本 可 以 根据 其 相似 性 进行 分 组 。 
量 ， 相 似 性 函数 被 定义 为 度量 函数 的 倒数 或 相反 数 。 例 如 ， 如 果 我 们 在 
二 二 (yz 一 二、 1 
d(%,xX,)= 0 x7") H s(x,x,) re 
在 前 面 的 公式 中 ,引入 了 常数 s 以 避免 除 以 零 。 很 明显 , d(a,c) < d(a,b) Ss(a;c) > s(a,b)。 
因此 ， 给 定 每 个 聚 类 及 的 代表 ， 我 们 可 以 根据 规则 创建 一 组 分 配 的 向 
C={x; :d(x;,L) < d(x;, He) YEE( 2 一 +1， 
换 句 话说 ， 聚 类 包含 代表 距离 同 所 有 其 他 代表 相 比 最 小 的 所 有 元 素 。 这 意味 着 聚 类 包 
含 同 所 有 代表 相 比 与 代表 的 相似 性 最 大 的 样本 。 此 外 ， 在 分 配 之 后 ， 相 
的 其 他 成 员 共 享 其 功能 的 权利 。 


引擎 可 以 基于 用 户 向 量 的 聚 类 (包含 有 关 用 户 兴 趣 和 购买 产品 的 信息 〉 来 进行 推 
定义 了 组 ， 属 于 同一 聚 类 的 所 有 因素 都 被 认为 是 相似 的 ， 














事实 上 ， 育 类 





分 析 最 重要 的 应 用 之 一 是 尝试 提高 被 认为 相似 村 


本 的 同 质 性 。 



































因此 我 们 被 隐 式 授权 共 



































例如 推荐 
存 。 一 旦 
享 差异 。 
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如 果 用 户 A 购买 了 
此 商品 ， 反 之 亦 然 。 该 过 程 看 似 随意 ， 但 是 当 因素 的 数量 很 大 并 且 特 征 向 量 包 含 许多 判别 
因素 例如 评级 时， 因素 就 变 得 非常 有 效 了 。 


2. 生成 模型 














有 太 大 


另 一 种 无 监 






























































产品 P 并 对 其 进行 了 积极 评价 , 我 们 可 以 向 没有 购买 产品 的 用 户 B 推荐 













































































针 督 方法 是 基于 生成 模型 。 这 个 概念 与 我 们 已 经 讨论 的 有 监督 算法 的 概念 没 























区 别 ， 但 在 这 种 情况 下 ， 数 据 生成 过 程 不 包含 任何 标签 。 因 此 ， 我 们 的 目标 是 对 参 





























数 化 分 布 进行 建 模 并 优化 参数 ， 以 便 将 候选 分 布 与 数据 生成 过 程 之 间 的 距离 最 小 化 : 


制 在 可 能 样本 的 子 集 ， 而 是 限制 在 整个 分 布 。 使 用 生成 模型 ， 我 们 可 以 绘制 与 训练 过 程 选择 
丰 然 不 同 的 新 样本 ,但 它们 始终 属于 相同 的 分 布 。 因 此 ,它们 (可 能 ) 总 是 可 以 接受 的 。 


样本 


习 模 














q(x;0)= p(x;0) 














该 过 程 通常 基 








于 Kullback-Leibler 散 度 或 其 他 类 似 度量 : 








Paata (7%) 


N 
L=D ta 到 aia Xi lo 一 
ki (Paaa || P) 之 忆 (%,) 0 


在 训练 阶段 结束 时 ， 我 们 假设 L 一 0， 所 以 p 守 pawa。 通 过 这 种 方式 ， 我 们 不 会 将 分 析 限 





























列 如 生成 式 对 


型 ， 它 能 够 学 









































抗 网 络 (Generative Adversarial Network，GAN) 是 一 种 特殊 的 深度 学 
习 图 像 集 的 分 布 ， 生 成 与 训练 样本 几乎 无 法 区 分 的 新 样本 〈 从 视觉 语义 




















的 角度 来 看 )。 无 监督 学 习 是 本 书 的 主题 ， 因 此 我 们 不 会 在 此 处 进一步 讨论 GAN。 上 所 有 这 


些 概 


常见 
如 购 
到 的 
商品 
程 ， 





但 你 












































念 将 在 第 9 章 
3. 关联 规则 
我 们 正在 考虑 




















〈 用 实际 例子 ) 进行 深入 讨论 。 























的 最 后 一 种 无 监督 方法 是 基于 关联 规则 的 ， 它 在 数据 挖掘 领域 非常 重要 。 
































的 情形 是 由 





部 分 商品 组 成 的 商业 交易 集合 ， 目 标 是 找 出 商品 之 间 最 重要 的 关联 ( 例 








买 P; 和 Pj 的 概率 为 70%)。 特 定 算法 可 以 有 效 地 挖掘 整个 数据 库 ， 突 出 所 有 可 以 考虑 











战略 和 物流 目 
一 起 购买 的 商 





























的 之 间 的 关系 。 例 如 在 线 商店 可 以 使 用 这 种 方法 来 促销 那些 经 常 与 其 他 
品 。 此 外 ， 预 测 方法 允许 通过 建议 所 有 很 可 能 售 束 的 商品 来 简化 供应 流 






































这 要 归功 于 其 
在 这 一 点 上 ， 
最 好 具备 概率 








他 项 目的 销售 增加 。 
读者 了 解 无 监督 学 习 的 实际 例子 是 有 帮助 的 。 不 需要 特别 的 先决 条 件 ， 
论 的 基本 知识 。 














4. 无 监督 的 hello world! 
































由 于 本 书 完全 




















致力 于 无 监督 算法 的 讲解 ,在 此 不 将 简单 的 聚 类 分 析 显 示 为 hello world! 
































示例 ， 而 是 假设 一 个 非常 











当 管 理 员 数量 不 足 时 ， 





此 外 ， 在 每 小 时 开始 时 发 i 
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基本 的 生成 模型 。 假 设 我 们 正在 监控 每 小 时 到 车 站 的 列车 数量 ， 





因为 我 们 需要 确定 车 站 所 需 的 管理 员 数 量 。 








我 人 


] 将 被 昼 款 。 




















特别 地 ， 要 求 每 列 列 车 至 少 有 1 名 管理 员 ， 每 























单 ， 我 们 也 知道 泊 松 分 才 
道 这 种 分 布 可 以 在 独立 的 主要 
在 一 般 情况 下 生成 模型 基于 参数 化 分 布 ( 例 如 神经 网 络 )， 













































































送 一 个 组 更 容易 ， 而 不 是 逐个 控制 管理 











员 。 由 于 问题 非常 简 












































6 是 一 个 好 的 分 布 ， 参 数 / 同样 也 是 平均 值 。 从 理论 上 讲 ， 我 们 知 
段 设 下 有 效 地 模拟 在 固定 时 间 范 围 内 发 生 的 事件 的 随机 数 。 
并且 不 对 其 系列 进行 具体 假设 。 























仅 在 某 些 特定 情况 下 (例如 高 斯 混合 )， 选 择 具有 特定 属性 的 分 布 是 合理 的 ， 并且 在 不 损失 











严谨 性 的 情况 下 ， 我 们 可 以 将 ; 





























此 分 布 描述 了 在 预定 义 的 间 
1 小 时 ， 我 们 希望 观测 10 多 超 丈 
最 常见 的 策略 称 为 最 大 似 然 估计 “Maximu 
通过 收集 一 组 观测 值 ， 















































然后 找到 








函数 为 ; 





玄 示 例 视 为 此 类 方案 之 一 。 


天 
P(E = te’, keN 











4 的 值 ， 该 值 使 




















隔 内 观察 个 事件 的 概率 。 在 我 们 的 例子 中 ， 间 隔 始 终 是 
上 车 ， 然 后 估计 概 率 。 我 们 如 何 才 





能 获得 x 的 正确 数值 ? 
m Likelihood Estimation，MLE )。 该 策略 
分 布 生 成 所 有 点 的 概率 最 大 化 。 














假设 我 们 已 经 收集 了 N 个 观测 值 〈 每 个 观测 值 是 一 小 时 内 到 达 的 列车 数量 )， 则 相对 
于 所 有 样本 的 4 的 似 然 度 是 在 使 用 以 下 公 
简单 起 见 ， 假 设 为 ID ): 





当 我 们 使 用 乘积 和 指数 时 ， 计 























旦 计算 出 对 数 似 然 ， 我 们 就 可 以 将 A 的 导数 设置 为 0， 以 便 找 到 最 佳 值 。 在 这 种 情 
况 下 ， 我 们 省 略 了 证 








很 笠 运 的 是 最 大 似 然 估 计 值 只 是 到 达 时 间 的 平均 值 。 这 意味 着 ， 





ZL 


log L( 


明 ( 





N Kk 
kishore ky) = Pls ha hy; 1) =] Lee 
el 了 



























































对 数 似 然 是 一 种 常见 的 规则 : 





i=] 





\ 式 计算 的 概率 分 布下 所 有 样本 的 联合 概率 /4 (为 


pM 为 
Hk,k,,*, ky )= log[ [ 和 Be = 2,log | es 
1=1 区 < Ei 

















直接 获得 ) 并 直接 得 出 j 的 最 大 似 然 估 















































计 值 : 








1 N 
Mopt = nN = Ave(k,) 












































如 果 我 们 观察 到 个 


平均 值 为 y 的 值 ， 则 有 很 大 可 能 生成 它们 的 泊 松 分 布 ， 其 特征 系数 为 4。 因 此 ， 从 这 种 分 
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布 中 抽取 的 任何 其 他 样本 将 与 观察 到 的 数据 集 兼容 。 


我 们 现在 可 以 从 第 一 次 模拟 开始 。 假设 我 们 在 工作 日 的 下 午 收 集 了 25 个 观察 结果 ， 如 
下 所 示 : 


import numpy as np 

OBS = NDpvarray(l[7, Li, 9 9 By Tly 9 9 By Ty TL By 07 9 Lly 7 0 
9 Oy QT BP LO LI 

mu = np.mean (obs) 

print('mu = {}'.format (mu)) 

最 后 一 个 命令 的 输出 如 下 : 

mu = 9.12 

因此 ， 每 小 时 平均 到 达 9 趟 列车 。 初 始 分 布 的 直方 图 如 图 1-5 所 示 。 


030 


020 





图 1-5 初始 分 布 的 直方 图 
要 计算 请 求 的 概率 ， 我 们 需要 使 用 累积 分 布 函数 CCumulative Distribution Function， 
CDF)， 它 在 SciPy 中 实现 〈 在 scipy.stats 包 中 )。 特 别 地 ， 由 于 我 们 感 兴趣 的 是 观察 到 的 列车 
数量 超过 固定 值 的 概率 ， 因 此 有 必要 使 用 与 1-CDF 相对 应 的 生存 函数 (Survival Function ， 
SF)， 如 下 所 示 : 


from scipy.stats import poisson 








print('P(more than 
print('P(more than 
print('P(more than 
print('P(more than 


8 trains) 
9 trains) 


10 trains) 


11 trains) 


上 述 代 码 段 的 输出 如 下 所 示 : 


than 
than 
than 
than 





et 
































8 trains) 
9 trains) 


10 tra 
下 二 -Cra 





ins) 


ins) 











1.3 机 器 学 习 算 法 的 类 型 


{}'.format (poisson.sf(8, mu 
{}'.format (poisson.sf(9, mu 
{}'.format (poisson.sf (10, 


{}'.format (poisson.sf (11, 


0.5600494497386543 
0.42839824517059516 
= 0.30833234660452563 
0.20878680161156604 


) 
) 
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FE 如 预期 的 那样 , 能 观测 10 多 趟 列车 的 概率 很 低 (30%), 派 10 名 管理 
但 是 ， 由 于 我 们 的 模型 是 自 适应 的 ， 我 们 可 以 继续 收集 观测 值 ( 例 如 在 清 








new obs = np.array ([13, 14, 11, 10, 11, 13, 13, 9, 11, 14, 
B77 13 BO Ed L273 3 LO 07 Edy 3 LL L435 Td]) 
obs = np.concatenate([obs, new _ obs]) 

mu = np.mean (obs) 

print('mu = {}'.format (mu)) 

4 的 新 值 如 下 所 示 : 


mu 


10.641509433962264 














现在 平均 每 小 时 11 趟 列车 。 假 设 我 们 收集 了 足够 的 样本 (考虑 所 有 潜在 的 事故 )， 我 

















print 
六 六 生前 七 
print 


than 
than 
than 
than 


8 trai 
9 trai 


10 trains) 
11 trains) 


们 可 以 重新 估计 概率 ， 如 下 所 示 : 


8 trains) 
9 trains) 
10 trains) 
11 trains) 


ns) 


ns) 





{}'.format (poisson.sf (8, mu) 
{}'.format (poisson.sf (9, mu) 
{}'.format (poisson.sf (10, m 


{}'.format (poisson.sf(11, m 


0.734624391080037 

0.6193541369812121 
0.49668918740243756 
0.3780218948425254 


) 
) 
u 
u 


) 
) 
) 
) 





) ) 
) ) 
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使 用 新 数据 集 观测 超过 9 趟 列车 的 概率 约 为 62% (这 证 实 了 我 们 最 初 的 选择 ), 但 现在 观测 
超过 10 趟 列车 的 概率 约 为 50%。 由 于 我 们 不 想 承 担 支付 罚款 的 风险 (这 比 管理 员 的 成 本 高 )， 
因此 最 好 派 10 名 管理 员 。 为 了 得 到 进一步 的 确认 , 我 们 决定 从 分 布 中 抽取 2000 个 值 , 如 下 所 示 : 





















































syn = poisson.rvs (mu size=2000) 


相应 的 直方 图 如 图 1-6 所 示 。 











0 5 10 15 20 25 


图 1-6 从 最 终 泊 松 分 布 中 抽取 2000 个 值 的 直方 图 
































该 图 在 10 表示 10 名 管理 员 ) 之 后 非常 接近 11 时 ) 达到 峰值 ， 然 后 从 厂 13 开始 
快速 衰减 ， 这 是 使 用 有 限 数 据 集 发 现 的 (比较 直方 图 的 形状 以 进一步 确认 )。 但是， 在 这 种 
情况 下 , 我 们 正在 生成 无 法 存在 于 观察 集中 的 潜在 样本 。MLE 保证 了 概率 分 布 与 数据 一 致 ， 
并 且 新 样本 将 相应 地 进行 加 权 。 这 个 例子 非常 简单 ， 其 目的 只 是 展示 生成 模型 的 动态 性 。 

我 们 将 在 本 书 的 后 续 章 节 中 讨论 许多 更 复杂 的 模型 和 示例 。 许 多 算法 常见 的 一 个 重要 
技术 在 于 不 是 选择 预定 义 的 分 布 ( 这 意味 着 先 验 知识 )， 而 是 选择 灵活 的 参数 模型 (例如 神 
经 网 络 ) 来 找 出 最 优 分 布 。 只 有 基础 随机 过 程 存在 较 高 的 置信 度 时 ， 优 先 选 择 预定 义 〈 如 
本 例 所 示 ) 才 合 理 。 在 其 他 情况 下 ， 最 好 避免 任何 假设 ， 只 依赖 数据 ， 以 便 找 到 数据 生成 
过 程 中 的 最 适当 的 近似 值 。 


1.3.3 半 监 督学 习 算 法 


半 监 督 场景 可 以 被 视 为 标准 监督 场景 ， 它 利用 了 一 些 属于 无 监督 学 习 技术 的 特征 。 事 
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1.3 ”机 器 学 习 算法 的 类 型 
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实 上 ， 当 很 容易 获得 大 的 未 标记 数据 集 ， 而 标签 成 本 又 非常 高 时 ， 就 会 出 现 一 个 非常 普遍 





的 问题 。 因 此 ， 


距离 就 会 
布 ， 


氏 



































标签 


半 监 


第 








群 























数 
并 
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则 半 监 督 


一 个 称 
本。 我 们 可 以 通过 图 
进行 加 权 。 通 过 壕 代 ， 所 有 标记 的 样本 将 
重复 该 过 程 直至 
可 以 通过 有 限 的 迭代 次 数 轻 松 到 


标签 传播 在 某 

















只 标记 部 分 样本 3 
预定 义 阔 值 。 如 果 从 单 
法 可 以 实现 与 有 监督 算法 相当 的 精度 。 在 本 书 中 ， 我 们 不 讨论 这 些 算法 ， 























将 标签 传播 到 所 有 未 标记 样本 ， 这 些 样本 与 标记 样本 的 


























传播 。 


督 文 持 向 量 机 。 






































为 标签 传播 (Label Propagation )， 其 目 
































个 数据 生成 过 程 中 抽取 数据 集 并 




















但 有 必要 简要 介绍 两 个 非常 重要 的 模型 。 



























































来 实现 该 目 











些 村 


本 可 以 




















可 能 
性 和 女性 
请 务必 记 





























主 ， 

















是 当 特 征 向 量 的 复杂 愧 


重要 的 半 ! 


第 一 人 


BG 





SVM) 的 ， 对 包含 未 标记 检 


有 大 量 客户 ， 











民 据 相似 性 度量 进行 标记 的 情况 下 非常 有 月 
但 只 有 10% 的 人 透露 了 自己 的 1 





标 ， 
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标记 的 样本 均匀 分 








的 是 将 一 些 样本 的 标签 传播 到 较 大 的 
中 每 个 顶点 表示 样本 并 且 每 条 边 都 使 用 距离 函 









































达 该 点 。 











外 演变 的 配置 )， 算 法 


标签 值 的 一 小 部 分 发 送 给 它们 所 有 的 近邻 ， 
I 标签 停止 变化 。 该 系统 上 共有 最 终 稳定 点 ( 即 无 法 








昌 。 例 如 在 线 商店 

















生 别 。 如 果 特 行 





















































j 户 的 常见 行为 ， 则 可 以 使 用 标签 传播 算法 来 猜测 未 公开 信息 
所 有 分 配 都 基于 相似 样 
增加 时 ， 也 可 能 会 产生 误导 。 





本 的 数据 集 的 扩展 。 在 这 























具有 相同 标签 的 人 















































向 量 足 够 丰富 以 表示 ! 
的 
月 设 。 在 许多 情况 下 都 是 如 此 ， 但 























客户 性 别 。 当 然 ， 








监督 算法 系列 是 基于 标准 支持 向 量 机 (Support Vector Machine， 
情况 下 ， 我 们 不 想 传 播 现 有 标签 ， 


























而 是 传播 分 类 标准 。 换 句 话 说， 我 们 希望 使 用 标记 数据 集 来 训练 分 类 器 ， 
展 到 未 标记 的 样本 。 











与 仅 能 计 





假设 始终 基 


定义 的 阀 值 ) 





子 集 ， 分 类 器 也 可 以 在 整个 数据 集 上 实现 高 精度 。 与 标签 传播 类 似 ， 这 

















估 未 标记 样本 的 标准 过 程 相反 ， 半 监督 SVM 使 
于 相似 性 : 如 果 4 的 标签 为 








并 将 分 类 规则 扩 









































1， 





它们 来 校正 分 离 超 平面 。 
而 未 标记 样本 B 的 4 (4,，B， <se (其 中 是 预 








， 则 可 以 合理 地 假设 B 的 标签 也 是 1。 通 过 这 种 方式 ， 即 使 仅 手 动 标记 了 一 个 























找到 合适 的 昌 


在 数据 集 的 结构 不 是 非常 复杂 时 ,特别 是 当 相似 怕 














' 类 型 的 模型 只 有 
































E 离 度量 非常 困难 




















1.3.4 强化 学 习 算 法 





似 反 馈 。 





> 


强化 学 习 可 以 被 视 为 有 监督 的 学 习 场 景 ， 
更 正式 地 说 ， 强 化 学 习 的 特点 





























日 























假设 成 立时 《不 笠 的 是 ， 在 某 些 情 况 下 ， 
因此 许多 类 似 的 样本 确实 不 相似 ， 反 之 亦 然 ) 才 是 可 靠 的 。 








其 中 隐藏 教师 仅 在 模型 的 每 个 决策 后 提供 近 
是 代理 和 环境 之 间 的 持续 互动 。 前 者 负责 决策 〈 行 
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动 )， 最 终 增 加 其 回报 ， 而 后 者 则 为 每 项 行动 提供 反馈 。 反 馈 通 常 被 视 为 奖励 ， 其 价值 可 以 


是 积极 的 (行动 已 成 功 ) 或 消极 的 《行动 不 能 复 用 )。 当 代理 分 析 环 境 〈 状 态 ) 的 不 同 配置 







































































时 ， 每 个 奖励 必须 被 视 为 绑 定 到 元 组 〈 行 动 ， 状态)。 因 此 ， 我 们 的 最 终 目 标 是 找到 一 种 方 
针 《〈 建 议 在 每 种 状况 下 采取 最 佳 行动 的 一 种 策略 )， 使 预期 总 回报 最 大 化 。 
























































强化 学 习 的 一 个 非常 经 典 的 例子 是 学 习 如 何 玩 游戏 的 代理 。 在 一 个 事件 中 ， 代 理会 测 




















试 所 有 过 到 状态 中 的 操作 并 收集 奖励 。 算 法 校正 策略 以 减少 非 积 极 行为 ( 即 奖励 为 正 的 行 


为 ) 


提供 


















































的 可 能 性 ， 并 增加 在 事件 结束 时 可 获得 的 预期 总 奖励 。 


强化 学 习 有 许多 有 趣 的 应 用 ， 这 些 应 用 并 不 仅 限 于 游戏 。 例 如 推荐 系统 可 以 根据 用 户 
的 二 进 制 反馈 《例如 拇指 向 上 或 向 下 ) 来 更 正 建 议 。 强 化 学 习 和 有 监督 学 习 之 间 的 主 








































































































要 区 别 在 于 环境 提供 的 信息 。 事 实 上 ， 在 有 监督 的 场景 中 ， 更 正 通常 与 其 成 比例 ， 而 在 强 





化 学 习 中 ， 必 须 分 析 一 系列 行动 和 未 来 的 奖励 。 因 此 ， 更 正 通常 基于 预期 奖励 的 估计 ， 并 
续 行 动 的 价值 影响 。 例 如 有 监督 模型 没有 内 存 ， 因 此 其 更 正 是 立竿见影 
必须 考虑 一 个 事件 的 部 分 展开 ， 以 决定 一 个 操作 是 否 是 负 的 。 

强化 学 习 是 机 器 学 习 的 一 个 有 趣 分 支 。 遗 憾 的 是 ， 这 个 主题 超出 了 本 书 的 范围 ， 因 此 
讨论 它 〈 你 可 以 在 Hands-On Reinforcement Learning with Python 和 Mastering 




















我 们 不 会 详 


它们 的 影响 受 后 


的 ， 而 强化 学 习 代 型 



































































































































Machine Learning Algorithms 中 找到 更 多 细节 )。 
我 们 现在 可 以 简要 解释 一 下 为 什么 选择 Python 作为 探索 无 监督 学 习 的 主要 语言 。 


1.4 为 什么 用 Python 进行 数据 科学 和 机 器 学 习 





在 继续 进行 更 多 技术 讨论 之 前 , 我 认为 解释 一 下 选择 Python 作为 本 书 的 编程 语言 是 有 
的 。 因 为 在 过 去 十 年 中 ， 数 据 科 学 和 机 器 学 习 领 域 的 研究 呈 指 数 级 增长 ， 诞 生 了 数 干 
篇 有 价值 的 论文 和 数 十 种 完整 的 工具 。 特 别 地 ， 由 于 Python 的 高 效 、 优 雅 和 紧凑 性 ， 已 被 


























许多 


研究 人 员 和 程序 员 选 中 ， 
























































j 以 创建 一 个 免费 发 布 的 完整 科学 生态 系统 。 

















如 今 ， 诸 如 scikit-learn、SciPy、NumPy、Matplotlib、pandas 等 许多 软件 包 代 表 了 数 百 























1 








j 于 生产 系统 的 支柱 ， 并 








程序 
况 下 
任务 

































































它们 的 使 用 量 还 在 不 断 增长 。 此 外 ， 复 杂 的 深度 学 习 应 用 























(如 Theano、TensorFlow 和 
创建 和 训练 复杂 模型 。 事 实 上 ， 请 务必 注意 Python 不 再 是 脚本 语言 。 它 支持 许多 特定 
(例如 Web 框架 和 图 形 )， 


出 于 这 些 原 因 ，Python 几乎 























1 PyTorch ) 允许 每 个 Python 用 户 在 没有 任何 速度 限制 的 情 





























并 且 可 以 与 用 C 或 C++ 编写 的 本 机 代码 对 接 。 
是 任何 数据 科学 项 目的 最 佳 选择 。 由 于 其 特性 ， 所 有 有 共有 不 






















































































同 背 景 的 程序 员 都 可 以 在 短 时 间 内 轻松 学 会 并 有 效 地 使 用 它 。 还 有 一 些 其 他 可 用 的 免费 解决 














1.6 问题 19 




















方案 (例如 RR、Java 或 Scala), 然而 在 使 用 R 的 情况 下 , 虽然 R 完全 覆盖 了 统计 和 数学 函数 ， 
但 它 缺 少 构建 完整 应 用 程序 所 必需 的 支持 框架 。 相 反 ，Java 和 Scala 拥有 完整 的 用 于 生产 环 
境 的 库 生 态 系 统 ， 但 Java 并 不 像 Python 那样 紧凑 且 易 于 使 用 ， 此 外 对 本 机 代码 的 支持 要 复 
杂 得 多 ， 并 且 大 多 数 库 完 全 依赖 于 JVM〔 随 之 而 来 的 是 性 能 损失 )。Scala 因 其 功能 特性 和 


Apa 
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che Spark 等 框架 (可 用 于 使 用 大 数据 执行 机 器 学 习 任务 ) 在 大 数据 全 景 图 中 占据 了 重要 位 
































。 但 是 ， 考 虑 到 所 有 的 优点 和 缺点 ，Python 仍然 是 最 佳 选择 ， 这 就 是 它 被 本 书 选中 的 原因 。 























1.5 总 结 


特 行 


型 : 





























在 本 章 中 ， 我 们 讨论 了 使 用 机 器 学 习 模 型 的 主要 原因 ， 以 及 如 何 分 析 数 据 集 以 描述 其 
FE， 列举 特定 行为 背后 的 原因 ， 预 测 未 来 行为 并 对 其 进行 影响 。 
我 们 还 探讨 了 有 监督 、 无 监督 、 半 监督 和 强化 学 习 之 间 的 差异 ， 重 点 讨论 了 前 两 个 模 
我 们 还 使 用 了 两 个 简单 的 例子 来 理解 有 监督 和 无 监督 的 方法 。 
在 第 2 章 中 ， 我 们 将 介绍 聚 类 分 析 的 基本 概念 ， 重 点 讨论 一 些 非常 著名 的 算法 ， 如 























































































































K-means 和 K-Nearest Neighbors 以 及 最 重要 的 评估 指标 。 


1.6 ”问题 


的 概率 求 和 来 获得 似 然 性 。 正 确 吗 ? 





1. 当 有 监督 学 习 不 适用 时 ， 无 监督 学 习 是 最 常见 的 替代 方法 吗 ? 
2. 贵 公司 的 首席 执行 官 要 求 你 找 出 决定 销售 趋势 为 负 的 因素 。 你 需要 执行 哪 种 分 析 ? 
3. 给 定 独 立 样本 数据 集 和 候选 数据 生成 过 程 〈 例 如 高 斯 分 布 )， 可 以 通过 对 所 有 样本 






































































































































4. 根据 哪 种 假设 ， 可 能 性 可 以 通过 单一 概率 的 乘积 来 计算 ? 
5. 假设 我 们 有 一 个 学 生 数 据 集 ， 其 中 包含 一 些 未 知 的 数值 特征 〔 例 如 年 龄 、 标 记 等 )。 


















































你 希望 将 男女 学 生 分 开 ， 因 此 你 决定 将 数据 集 分 为 两 组 。 不 笠 的 是 ， 两 个 聚 类 都 有 大 约 50% 


























的 


生 和 50% 的 女生 。 你 怎么 解释 这 个 结果 ? 
6. 考虑 问题 $S， 但 重复 实验 并 将 其 分 为 5 组。 你 期 望 在 它们 中 找到 什么 〈 列 出 一 些 合 



































| 出 





的 可 能 性 ) ? 


























7. 你 已 经 对 一 家 网 店 的 顾客 进行 了 聚 类 。 给 定 一 个 新 样本 ， 你 可 以 做 出 什么 样 的 预测 ? 








在 本 章 中 ， 我 们 将 介绍 聚 类 分 析 的 基本 概念 ，j 


























要 原则 以 及 可 用 于 评估 方法 性 能 的 最 重要 的 技术 上 。 
本 章 将 着 重 讨论 以 下 主题 。 


聚 类 和 距离 函数 简介 。 


2.1 














K-means 和 开 -means++。 





网 
唐 








汕 指 标 。 





K- 近 邻 〈K-Nearest Neighbors，KNN )。 


向 量 量化 (Vector Quantization，VQ ) 。 


技术 要 求 


本 章 中 的 代码 需求 如 下 。 
Python 3.5+〈 强 烈 推 荐 Anaconda 发 行 版 )。 





库 。 





SciPy 0.19+。 
NumPy 1.10+。 
scikit-learn 0.20+。 


pandas 0.22+。 


上 
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时 加 加 ;加 肝 相 


a i 性 














Le 











中 在 被 许多 多 





法 共享 的 主 
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mn Matplotlib 2.0+。 
m seaborn 0.9+。 
数据 集 可 以 通过 UCI 数据 集 获 得 ， 除 了 在 加 载 阶段 添加 列 名 外 ， 不 需要 任何 预 处 理 。 
示例 代码 可 在 本 书 配套 的 代码 包 中 找到 。 









































2.2 聚 类 介绍 








正如 我 们 在 第 1 章 中 所 解释 的 ， 聚 类 分 析 的 主要 目的 是 根据 相似 性 度量 或 邻近 性 标准 
对 数据 集 的 元 素 进行 分 组 。 在 本 章 的 前 半 部 分 中 ， 我 们 将 重点 关注 前 一 种 方法 ， 而 在 后 半 
部 分 和 第 3 章 中 ， 我 们 将 分 析 利 用 数据 集 的 其 他 几何 特征 的 更 通用 的 方法 。 

让 我 们 采用 数据 生成 过 程 puueCo) 并 从 中 抽取 N 个 样本 : 
= {0 XNy}, 直 中 元 ~ Pua(x) HNe R™ 


假设 paaa(x) 的 概率 空间 可 以 分 割 成 《可 能 是 无 限 的 ) 包含 K(K= 1,2,…) 个 区 域 的 配 
置 ， 因 此 paws(x; 月 表示 属于 聚 类 大 的 样本 的 概率 。 通 过 这 种 方式 我 们 声明 ， 当 确定 pawia(x) 
时 ， 每 个 可 能 的 聚 类 结构 就 都 已 经 存在 了 。 我 们 可 以 对 更 接近 pao(x) 的 聚 类 概率 分 布 做 出 
进一步 的 假设 (正如 我 们 将 要 在 第 5 章 中 看 到 的 )。 但 是 ， 当 我 们 尝试 将 概率 空间 (和 相应 
的 样本 ) 拆 分 为 内 聚 组 时 ， 我 们 可 以 假设 两 种 可 能 的 策略 。 
。 硬 聚 类 : 在 这 种 情况 下 , x, EX 的 每 个 样本 分 配给 群集 Ki, 并 有 KN K=@ (i# 站 )。 
我 们 将 要 讨论 的 大 多 数 算法 都 属于 这 一 类 。 在 这 种 情况 下 , 问题 可 以 表示 成 一 个 为 
每 个 输入 样本 分 配 一 个 聚 类 的 参数 化 函数 : 
k=c(x:0), Sk=0,1,2,.…,K 


。 软 聚 类 : 通常 被 细 分 为 概率 和 模糊 聚 类 ， 这 种 方法 确定 属于 预定 聚 类 的 每 个 样本 
Xp 站 的 概率 pC0。 因 此 ， 如 果 有 聚 类 天 ， 我 们 有 一 个 概率 向 量 p(x) = [p12), p207), …， 

px(Xx)]， 其 中 Po 表示 分 配给 聚 类 i 的 概率 。 在 这 种 情况 下 ， 聚 类 不 是 脱节 的 ， 通 

常情 况 下 样本 将 属于 所 有 具有 等 效 概 率 的 成 员 级 的 聚 类 《此 概念 是 模糊 聚 类 所 特 

有 的 )。 

为 达到 我 们 的 目的 ， 在 本 章 中 仅 假设 并 是 从 一 个 数据 生成 过 程 中 提取 的 ， 该 过 程 的 空 

间 在 给 定 度量 函数 的 情况 下 〉 可 分 割 为 彼此 分 离 的 紧凑 区 域 。 事实 上 ， 我 们 的 主要 目的 
是 找到 满足 最 大 内 聚 和 最 大 分 离 双 重 属性 的 聚 类 玉 。 在 讨论 K-means 算法 时 ， 这 个 概念 将 
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更 加 清晰 。 然 而 ， 我 们 可 以 将 聚 类 想象 成 一 个 斑点 ， 其 密度 远 高 于 分 隔 两 个 或 多 个 斑点 的 
空间 中 的 密度 ， 如 图 2-1 所 示 。 








Cluster 2 


Cluster 1 


芯 》1 
N 
分 离 区 域 Cluster 3 


Nout(7) 

















图 2-1 二 维 聚 类 结构 遵循 最 大 内 聚 和 最 大 分 离 的 原则 。 表 示 属 于 聚 类 大 的 样本 数 ， 
而 Nou() 是 在 以 每 个 聚 类 中 心 为 原点 的 最 大 半径 > 的 球体 外 的 样本 数 























在 图 2-1 中 ， 在 考虑 样本 与 中 心 的 最 大 距离 的 前 提 下 ， 我 们 假设 大 多 数 样 本 将 被 其 中 一 
个 球 捕获 。 然 而 ， 我 们 不 想 对 球 的 生长 施加 任何 限制 (也 就 是 说 ， 它 可 以 包含 任意 数量 的 
样本 )， 因 此 最 好 不 要 考虑 半径 ， 并 通过 样本 少 的 子 区 域 〈 整 个 空间 ) 来 评估 分 离 区 域 ， 并 
收集 它们 的 密度 。 
在 一 个 完美 的 场景 中 ， 聚 类 跨越 一 些 密度 为 D 的 子 区 域 ， 而 分 离 区 的 特征 是 密度 
d 之 D。 关 于 几何 属性 的 讨论 可 能 变 得 非常 复杂 ， 并且 在 许多 情况 下 ,， 它 是 非常 理论 化 的 。 
此 后 ， 我 们 只 考虑 属于 不 同 聚 类 的 最 近 点 之 间 的 距离 。 如 果 该 值 远 小 于 样本 与 其 所 有 聚 类 
与 聚 类 中 心 之 间 的 最 大 距离 ， 我 们 可 以 确保 分 离 是 有 效 的 ， 并 且 很 容易 区 分 聚 类 和 分 离 区 
域 。 相 反 ， 当 使 用 距离 度量 〈 例 如 在 K-means 中 ) 时 ， 我 们 需要 考虑 的 另 一 个 重要 因素 是 
聚 类 的 凸 性 。 如 果 Yx ,mm eC ， 并 且 属 于 x 和 x, 段 上 的 所 有 点 都 属于 C， 则 通用 集 C 是 凸 
的 。 关 于 凸 聚 类 和 非 凸 〈 凹 ) 聚 类 的 对 比 ， 如 图 2-2 所 示 。 

遗憾 的 是 ， 由 于 距离 函数 的 对 称 性 ， 诸 如 KK-means 算法 是 无 法 管理 非 凸 聚 类 的 。 在 我 
们 的 探索 中 ， 将 展示 这 一 局 限 性 以 及 其 他 方法 是 如 何 克 服 该 局 限 性 的 。 
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凸 聚 类 凹 聚 类 


图 2-2 凸 聚 类 ( 左 ) 和 四 聚 类 《〈 右 ) 示例 


距离 函数 


聚 类 的 一 般 定 义 通常 基于 相似 性 的 概念 ， 也 很 容易 使 用 其 相反 概念 ， 即 由 距离 函数 〈 差 
异 度量 ) 表示 。 最 常见 的 选择 是 欧 氏 距离 (Euclidean Distance)， 但 是 在 选择 它 之 前 ， 必 
须 考虑 其 特性 及 它 在 高 维 空间 中 的 行为 。 我 们 先 介 绍 一 下 闵可夫 斯 基 距 离 (Minkowski 
Distance〉 作 为 欧 氏 距离 的 推广 。 如 果 样 本 x; E ”， 则 定义 如 下 : 
















































































~ (2D) (D) 5 
一 一 
d, (Xi,%,)= DE 一 六 
I 


当 p= 1 时， 我 们 得 到 曼哈顿 (或 城市 街区 〉 距离 ， 当 p=2 时 ， 对 应 标准 欧 氏 距离 。 
我 们 想 要 了 解 的 是 p 一 2 时 qj 的 行为 。 假 设 我 们 在 一 个 二 维 空间 中 ， 并 且 有 一 个 中 心 点 为 
Xe= (0,0) 的 聚 类 和 一 个 采样 点 x = (5,3)， 对 于 不 同 点 p 的 距离 (xco x) 是 : 
d(x.,x)=8 
d, (T,X) ~ 5.83 
d,(X.,x) 5.075 
di,(X.,x) 5.003 
di (T,X) 5.0 
















































































很 显然 地 (并 且 很 容易 证 明 )， 如 果 | x -x/| 是 最 大 的 分 量 绝 对 差 ， 那 么 当 p 一 时 ， 
dp(xo 2 一 | 刀 一 总 |。 这 意味 着 , 如 果 我 们 考虑 由 所 有 分 量 的 不 同 而 导致 的 相似 性 (或 差异 )， 
则 需要 为 p 选择 一 个 最 小 值 ( 例 如 p=1 或 2)。 另 一 方面 ， 如 果 两 个 样本 仅 根 据 分 量 之 间 的 
最 大 绝对 差 被 视 为 不 同 ,那么 p 取 较 高 的 值 才 合适 。 通 常 ， 这 种 选择 是 非常 依赖 上 下 文 的 ， 
并 且 不 易 推 广 。 出 于 我 们 的 目的 ， 通 常 只 考虑 欧式 距离 ， 这 在 大 多 数 情 况 下 是 合理 的 。 男 
外 ， 当 N 一 吕 时 选择 较 大 的 p 值 具有 重要 的 意义 。 先 从 一 个 例子 开始 吧 。 我 们 想 测 量 不 同 
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的 p 














第 2 章 聚 类 基础 知识 





和 值 的 LV 向 量 〈 属 于 儿 * 且 所 有 分 量 等 于 1 的 向 量 ) 与 原点 之 间 的 距离 〈 使 用 对 














数 刻度 来 压缩 y 轴 )， 可 按 如 下 方式 完成 : 


import numpy as np 

from scipy.spatial.distance import cdist 
distances = np.zeros (shape=(8, 100)) 

for i in range(l1l, distances.shapel[l0] + 1): 


for j in range(l1l, distances.shapel[l1l] + 1): 
distances[i -1，]j -1] = np.log(cdist (np.zeros (shape=(1, j)), np. 


ones (shape=(1, j)), metric='minkowski', p=i)[0][0]) 


45 


35 


Minkowski distances (log-scale) 
a 


距离 如 图 2-3 所 示 。 
































1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 7 31 86 91 9 101 
Dimensionality 


图 2-3 p 和 的 不 同 值 的 闵可夫 斯 基 距 离 ( 对 数 刻度 ) 


























第 一 个 结论 是 如 果 我 们 为 N 选择 一 个 值 ， 当 p 一 时 距离 收缩 并 达到 人 饱和， 这 是 闵可夫 斯 



































基 距 离 结构 的 正常 结果 ， 但 是 敏锐 的 读者 可 能 会 注意 到 男 一 个 因素 。 让 我 们 想象 一 下 将 IN 向 





了 ? 











量 的 一 个 分 量 设 置 为 0.0。 这 相当 于 从 N 维 超 立 方 体 的 顶点 移动 到 男 一 个 项 点。 距离 怎么 样 











我 们 很 容易 用 一 个 例子 来 证 明 , 当 p 一 时 , 两 个 距离 收敛 到 相同 的 值 。 尤其 是 Aggarwal、 
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Hinneburg 和 Keim (参见 On the Surprising Behavior of Distance Metrics in High Dimensional 





Space) 证 明了 重要 的 结果 。 








假设 我 们 有 一 个 px) 分布 的 xE(0, D? 的 二 进 制 
到 的 两 个 点 和 原点 之 间 的 最 大 (Dmax*)〉 和 最 小 
分 析 计 算出 来 , 但 也 可 以 使 


则 可 以 计算 从 Po 采样 
来 说 , 这 个 距离 可 以 通过 




















样 





本 M。 如 果 我 们 使 用 Minkowski 度量 ， 
(Dmir ) 距离 (一 般 
J 迭代 过 寸 程 持 续 采样 直到 Dnax 和 Dnist 






































停止 变化 为 止 )。 作 者 证 明了 以 下 不 等 





C， lmE 


d 一 co 


在 
之 间 获 取 预 期 值 E[Diwax-D 
离 差 的 期 望 值 收敛 到 0。 这 
斯 基 距 离 来 区 
告 我 们 在 4 >1 时 ， 选 择 大 的 p 值 。 
使 P=1 是 最 佳 选择 )， 因 为 它 对 分 
并 保证 在 高 维 空 












































D? 


zs 间 中 的 可 区 分 性 。 相 反 ， 在 高 维 空 
最 大 分 量 保持 不 变 ， 而 其 他 所 有 样 





例 所 示 : 


import numpy as np 


式 是 成 立 的 : 


一 Pr 


max min 
A 


ad? 





<(M-DC, ,其 中 


前 面 的 公式 中 , C, 是 一 个 依赖 于 p 的 常数 , 当 p 一 2 时 , 在 边界 C4? 与 (4-1D)Cad” 
Dai ] 的 极限 。 当 p>2、d~%， 

意味 着 ， 
分 两 个 样本 几乎 是 不 可 能 的 。 当 我 











0 


项 4d? >0 时 ,最 大 和 最 小 距 
当 维 数 足 够 高 时 并 且 P>2 时 ， 用 闵可夫 
门 发 现 距 离 函 数 的 相似 性 时 ， 这 一 定理 警 
当 4d 交 1 时 ， 欧 几 里 得 度量 的 常见 选择 也 非常 可 靠 〈 即 
) 量 的 权重 影响 最 小 《可 以 假设 它们 具有 相同 的 权重 )， 
间 中 >2 时 ， 所 有 样本 距离 无 法 区 分 ， 
本 都 被 修改 (例如 如 果 x=(5,0) 一 (5,q) 其 中 |a|<5)， 如 下 























与 样本 无 关 ; 
























































from scipy.spatial.distance import cdist 


distances = 


[] 


for i in range(1, 2500, 
'minkowski', p=15)[0][0] 
distances.append (qd) 
print('Avg(distances) = 
print('Std(distances) = 


输出 如 下 : 


Avg (distances) = 
Std(distances) = 


OQ) 
d= cdist(np.array ([[0, 


0]]), np.array([[5, float(i / 500)]]), metric= 


{}'.format (np.mean (distances))) 
{}'.format (np.std(distances))) 


5.0168687736484765 
0.042885311128215066 
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因此 ,对 于 p=15, xE[0.002, 5.0) 的 所 有 样本 (5,x) 距 原点 的 距离 ， 其 平均 值 约 为 5.0， 
标准 差 约 为 0.04。 当 p 变 大 时 ，Avg(distances)= 5.0 并 且 Std(distances) = 0.04。 


在 这 一 点 的 基础 上 , 我 们 可 以 开始 讨论 最 常见 和 最 广泛 采用 的 聚 类 算法 之 一 : K-means。 















































2.3 -means 














K-means 是 最 大 分 离 和 最 大 内 聚 原则 的 最 简单 实现 。 假设 我 们 有 一 个 数据 集 XE 究 “”( 即 
M 个 N 维 样本 )， 并 且 要 分 成 玉 个 聚 类 和 一 组 天 质心 对 应 分 配给 每 个 聚 类 太 的 样本 均值 : 
MO = {10, 507O) 其 中 FoO eR” 
集合 M 和 质心 有 一 个 附加 索引 【作为 上 标 ) 指示 和 迭代 步 又。 从 最 初 的 猜测 MO 开始 ， 
K-means 试图 最 小 化 称 为 惯性 的 目标 函数 ( 即 分 配给 聚 类 K; 的 样本 与 其 质心 jy 之 间 的 总 平 
均 聚 类 内 距离 ): 
































S(t)= 5] 名 -zo 


k= lxek, 


很 容易 理解 不 能 将 S00 视 为 绝对 度量 ， 国 为 其 值 受 样本 方差 的 影响 很 大 。 然而 
S(t1+1)<S(1)， 这 意味 着 质心 正在 接近 一 个 最 佳 位 置 ， 在 这 个 位 置 上 ， 分 配给 一 个 聚 类 的 点 与 相 
应 的 质心 有 着 最 小 可 能 距离 。 因 此 ， 迭 代 过 程 也 称 为 劳 埃 德 算 法 (Lloyd's Algorithm ) 通过 
给 MO 初始 化 随机 值 开始 。 下 一 步 是 给 xe 的 每 个 样本 分 配 其 质心 与 x; 距 离 最 小 的 聚 类 : 

cH;M™")= argminy d(x, 2) 
完成 所 有 分 配 后 ， 新 的 质心 将 重新 计算 作为 算术 平均 值 : 

mt = 

"= NN = op < 

重复 该 过 程 直 到 质心 停止 变化 〈 这 也 意味 着 序列 S(0)>S(1)>…> S(towa))。 读 者 应 该 能 江 
刻 理 解 最 初 的 猜测 对 计算 时 间 有 很 大 的 影响 。 如 MO 非常 接近 MM，, 通过 几 次 迭代 即 可 找 
到 最 佳 配置 。 相 反 ， 当 Mt 纯粹 是 随机 的 时 候 ， 无 效 的 初始 选择 的 概率 接近 1 (也 就 是 说 ， 
每 个 初始 的 统一 随机 选择 在 计算 复杂 性 方面 几乎 是 等 价 的 )。 














































































































































































































上 -means++ 





找到 最 佳 初 始 配置 相当 于 最 小 化 惯性 ; 然而 ，Arthur 和 Vassilvitskii (在 K-zzeazs++: The 





Advantages of Careful Seeding 和 Proceedings of the Fighteenth Annual ACM-SIAM Symposium 
on Discrete Algorithms 中 ) 提出 了 另 一 种 初始 化 方法 〈 称 为 K-means++)， 该 方法 通过 选择 
有 更 高 概率 接近 最 终 质 心 的 初始 质心 ， 从 而 显著 提高 了 收敛 速度 。 该 方法 完整 的 证 明 是 
相当 复杂 的 ， 可 以 在 上 述 的 参考 资料 中 找到 。 因 此 ， 我 们 直接 提供 最 终结 果 和 一 些 重 要 的 
成 果 。 

让 我 们 来 考虑 函数 D()， 其 被 定义 为 : 

D(X,i) = mind(x,1,) viell,pl where pK 

D(*) 表 示 样 本 xEX 与 已 经 选 定 的 质心 之 间 的 最 短 距离 。 计 算 函 数 后 ， 就 可 以 确定 概率 

分 布 G(X): 
















































































Di) 六 
一 DG 站 
第 一 质心 由 是 从 均匀 分 布 中 取样 。 此 时 ， 可 以 为 所 有 xEX 的 样本 计算 D(-)， 因 此 可 
以 计算 概率 分 布 G(x)。 很 坦率 地 说 ， 如 果 我 们 从 CoD) 中 采样 ， 在 稠密 区 域 中 选择 一 个 值 的 
概率 远大 于 均匀 采样 或 在 分 离 区 域 中 选择 质心 的 概率 。 因 此 ， 我 们 继续 从 G(x) 中 采样 2。 
。 
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G(X) = 








































































































重复 该 过 程 直 到 确定 所 有 的 天 质心 。 当 然 ， 由 于 这 是 一 种 概率 方法 ， 我 们 无 法 保证 最 终 配 
是 最 优 的 。 然 而 ，K-means++ 是 具有 O(log K) 竞争 性 的 。 事 实 上 ， 如 果 5 是 5 在 理 
上 的 最 佳 值 ， 作 者 证 明了 以 下 不 等 式 是 成 立 的 : 

ELS]< 85,, (log K +2) 


当 $ 由 于 更 好 的 选择 而 减少 时 , 前 面 的 公式 将 为 预期 值 E15] 设 置 一 个 上 限 , 大 致 与 log K 
成 正比 。 例 如 对 于 K=10，E[S] 志 19.88。Soy; 而 对 于 K=3，E[S] 三 12.87。Soj。 这 一 结果 揭 
示 了 两 点 : 第 一 点 是 K-means++ 在 天 不 是 非常 大 时 表现 更 好 ;第 二 个 点 可 能 也 是 最 重要 的 
点 ， 就 是 单个 K-means++ 初 始 化 不 足以 获得 最 佳 配 置 。 因 此 ， 常 见 的 实现 (例如 scikit-learn ) 
是 执行 可 变数 量 的 初始 化 ， 并 选择 初始 惯性 最 小 的 初始 化 。 


2.4 ”威斯康星 州 乳腺 癌 数 据 集 分 析 























































































































































































































在 本 节 中 ,我 们 使 用 著名 的 威斯康星 州 乳腺 癌 数 据 集 (Breast Cancer Wisconsin dataset) 
进行 聚 类 分 析 。 最 初 数据 集 的 提出 是 为 了 训练 分 类 器 ;然而 ， 它 对 于 非 平 凡 的 聚 类 分 析 
非常 有 用 。 它 包含 由 32 个 属性 (包括 诊断 和 识别 号 ) 组 成 的 569 个 记录 。 所 有 的 属性 都 
严格 地 与 肿瘤 的 生物 学 和 形态 学 特性 相关 ， 但 我 们 的 目标 是 考虑 基本 事实 (良性 或 恶性 ) 
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和 数据 集 的 统计 特性 来 验证 一 般 假设 。 在 继续 之 前 ， 我 们 必须 澄清 一 些 要 点 。 数 据 集 是 


高 维 的 ， 并 且 聚 类 是 非 凸 的 《所 以 我 们 不 能 指望 一 个 完美 的 分 割 )。 此 外 ， 我 们 的 目标 不 
是 使 用 聚 类 算法 来 获得 分 类 器 的 结果 ; 因此 ， 必 须 只 将 基本 事实 作为 潜在 分 组 的 一 般 指 




































































以 考虑 。 这 个 例子 的 目的 是 展示 如 何 执行 一 个 简短 的 初步 分 析 ， 选 择 最 佳 的 聚 类 数 ， 


并 验证 最 终 的 结果 。 


的 文件 夹 中 。 第 一 步 是 加 载 数据 集 并 通过 pandas DataFrame 公开 的 函数 describe0 执 行 全 局 














下 载 后 (如 技术 要 求 部 分 所 述 )，CSYV 文件 必须 放 在 我 们 通常 将 其 命名 为 <data_folder> 











上 


























统计 分 析 ， 如 下 所 示 : 


import numpy as np 
import pandas as pd 


bc dataset path = '<data path>\wdbc.data' 


bc dataset columns = ['id','diagnosis', 'radius mean', 'texture mean', 
'perimeter mean', 
'area mean', 'smoothness mean', 'compactness mean', "concavity mean', 


"concave points mean', 'symmetry mean', 'fractal dimension mean', 








'radius se', 'texture se', 'perimeter se', 'area se', 'smoothness se', 
'compactness se', 'concavity se', 'concave points se', 'symmetry se', 
'fractal dimension se', 'radius worst', 'texture worst', 'perimeter worst', 
'area worst', 'smoothness worst', '‘'compactness worst', "concavity worst', 


"concave points worst', 'symmetry worst', 'fractal dimension worst'] 


df = pd.read csv(bc dataset path, index col=0, 
names=bc dataset columns) .fillna(0.0) 
print (df.describe()) 





























我 强烈 建议 使 用 Jupyter Notebook 〈 在 这 种 情况 下 ， 命 令 必须 仅 有 dfdescripe0)， 其 中 所 
























































有 命令 都 产生 内 联 输出 。 此 处 仅 显 示 了 表格 输出 的 第 一 部 分 (包含 前 8 个 属性 )， 如 表 2-1 所 示 。 
表 2-1 数据 集 的 前 8 个 属性 的 统计 报告 
radius_ | texture ”|perimeter smoothness_|compactness_|concavity_ SO 
area mean points 
mean mean mean mean mean mean 证 





count|569.000000|569.000000 |569.000000 1369.000000 1369.000000 1369.000000 1569.000000 |569.000000 





mean|14.127292 |19.289649 |91.969033 |654.889104 |0.096360 0.104341 0.088799 10.048919 





std |3.524049 |4.301036 |24.298981] |351.914129 |0.014064 0.052813 0.079720 10.038803 
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续 表 
radius_ | texture ”|perimeter smoothness_ |compactness_|concavity_ A 
area_ mean points_ 
mean mean mean mean mean mean 
mean 
min |6.981000 |9.710000 |43.790000 |143.500000 |0.052630 0.019380 0.000000 |0.000000 
So% |11.700000 |16.170000 |75.170000 |420.300000 |0.086370 0.064920 0.029560 |0.020310 
S0% |13.370000 |18.840000 |86.240000 |551.100000 |0.095870 0.092630 0.061540 |0.033500 
75% |15.780000 |21.800000 |104.100000|782.700000 |0.105300 0.130400 0.130700 |0.074000 
max |28.110000 |39.280000 |188.500000 |2501.000000 |0.163400 0.345400 0.426800 |0.201200 
当然 ， 即 使 我 们 将 注意 力 仅仅 关注 在 子 集 上 ， 我 也 建议 读者 检查 所 有 属性 的 值 。 特 别 
是 需要 观察 前 8 个 属性 存在 的 不 同比 例 。 标 准 差 范围 从 0.01 到 350， 这 意味 着 许多 向 量 可 
能 仅 由 于 一 个 或 两 个 属性 就 非常 相似 。 另 一 方面 ， 使 用 方差 缩放 来 规范 化 值 ， 将 使 所 有 属 
性 具有 相同 的 责任 〈 例 如 area_mean 介 于 143.5 和 2501 之 间 ， 而 smoothness_mean 介 于 0.05 
和 0.16 之 间 。 强 迫 它们 具有 相同 的 差异 会 影 机 向 ， 而 且 由 于 没有 任 
何 有 具体 的 指示 ， 我 们 没有 被 授权 做 出 这 样 的 选择 )。 显 然 ， 一 些 属 性 在 聚 类 过 程 中 具有 更 高 
的 权重 ， 0 






































































































































































































































现在 我 们 开始 初步 的 分 析 , 考虑 perimeter_ mean、area_ mean、 smoothness_mean、 concavity_ mean 





和 symmetry_mean， 如 图 2-4 所 示 。 
非 对 角 线 上 的 图 表示 所 有 其 他 属性 的 函数 ， 而 对 角 线 上 的 图 则 表示 每 个 属性 的 分 布 ， 
这 些 分 布 被 拆 分 为 两 个 部 分 〈 在 本 例 中 ， 这 就 是 诊断 )。 因 此 ， 第 二 个 非 对 角 线 图 (左上 和 角 ) 
是 perimeter_mean 与 area_mean 的 函数 关系 图 , 依 此 类 推 。 快速 分 析 突 出 了 一 些 有 趣 的 元 素 。 
。 area mean 和 perimeter mean 有 明确 的 相关 性 ， 并 确定 明显 的 分 离 。 当 area_mean 
大 于 1000 时 ， 周 长 明显 增 大 ， 诊 断 由 良性 突然 转 为 恶性 。 因 此 ， 这 两 个 属性 是 最 
终结 果 的 决定 因素 ， 并 且 其 中 一 个 可 能 是 多 余 的 。 
。 其 他 绘图 (例如 perimeter_meam/area_mean 与 smoothness_mean，atrea_mean 与 


symmetry mean, concavity mean 与 smoothness mean, TT concavity mean 与 


symmetry_mean) 








的 几乎 所 有 值 (zx 加 











有 一 些 图 





〈 例 


symmetry_mean) 显示 略微 负 的 倾斜 对 角 线 分 隔 。 这 


几乎 所 有 因 变 量 的 诊断 值 都 保持 不 变 ， 而 另 一 方 














L 有 水 






































“间隔 《将 














垂直 反 转 为 轴 )。 




















1 )， 都 有 一 个 阐 值 将 男 一 个 变量 


如 perimeter_mean/area_mean 与 OS mean/concavity_mean 与 








这 意味 着 


， 对 于 














的 值 分 为 两 组 ( 

















这 意味 着 
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自 变 量 























印 ， 


自 变量 

















自 变 量 假设 
良性 和 恶性 )。 


越 来 越 小 时 ， 


越 来 越 大 时 , 诊断 将 
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按 比例 切换 到 相反 的 值 。 例如 对 于 小 的 perimeter mean 值 ，concavity mean 可 以 在 








不 影响 诊断 的 情况 下 达到 最 大 值 ( 良 性 )， 而 perimeter_mean>150 时 总 是 能 独立 于 
concavity mean 做 出 恶性 诊断 。 
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图 2-4 perimeter mean、 area mean、smoothness mean、concavity mean、symmetry_mean 








当然 ,我 们 不 能 轻易 地 从 拆 分 分 析 中 得 出 结论 (因为 需要 考虑 所 有 相互 作用 ), 但 是 此 
活动 有 助 于 为 每 个 聚 类 提供 语义 标签 。 此 时 ， 通 过 t+ 分 布 随机 近邻 能 入 〈t-Distributed 
Stochastic Neighbor Embedding，t-SNE) 在 二 维 平 面 上 转换 有 利于 可 视 化 数据 集 (无 非 结 
构 属性 ) (有关 更 多 详细 信息 ， 请 参考 Journal of Machine Learning Research 的 Visualizing 
Data using tSVE)。 有 具体 可 以 按照 以 下 步骤 进行 : 


























import pandas as pd 


from sklearn.manifold import TSNE 


cdf 


df.drop(['diagnosis'], axis=1) 








tsne 


TSNE (n_ components=2, 


data tsne tsne.fit transform (cdf) 


df tsne 
dff pd.concat ([df, 


df tsne], axis=1) 


2.4 威斯康星 州 乳腺 癌 数 据 集 分 析 


pd.DataFrame (data tsne columns=['x', 


威斯康星 州 乳腺 癌 数 据 集 的 二 维 t-SNE 图 ， 如 图 2-5 所 示 。 
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perplexity=10, random state=1000) 


'y'], index=cdf.index) 
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图 2-5 威斯康星 州 乳腺 癌 数 据 集 的 二 维 t-SNE 图 














该 图 是 高 度 非 线 性 的 (不 








于 y<0 的 半 平 面 内 。 不 柱 的 是 ， 在 这 个 区 域 也 有 中 等 比例 的 良性 样本 ， 因 
用 K=2 来 实现 完美 分 离 〈 在 这 种 情况 下 ， 很 难 理解 真实 的 几何 图 形 ， 但 t-SNE 保证 二 维 





















































记 这 是 一 个 从 只 “到 多 “的 投影 )， 但 大 部 分 恶性 样本 位 


此 我 们 不 希望 使 





分 布 与 原始 的 高 维 分 布 具有 最 小 的 Kullback-Leibler 散 度 )。 现 在 让 我 们 用 天 = 2 进行 初始 聚 





类 。 我 们 将 使 月 
何 可 能 的 情况 下 ，random state 始终 设置 为 1000)。 











月 n_clusters = 2 和 max iter = 1000 创建 KMeans scikit-learn 类 的 实例 在任 


32 











第 2 章 聚 类 基础 知识 








> 





其 余 参数 为 默认 值 〈 使 用 10 次 尝试 的 K-means ++ 初 始 化 )， 如 下 所 示 : 


import pandas as pd 
from sklearn.cluster import KMeans 


km = 
Y _ pred = 


KMeans (n clusters=2, max iter=1000, random state=1000) 
km.fit predict (cdf) 


df km = pd.DataFrame (Y pred, columns=['prediction'], index=cdf.index) 




















kmdff = pd.concat ([dff, df km], axis=1) 
时 F 计 四 也 j 醒 光 了 > a 
威斯康星 州 乳腺 癌 数 据 集 的 KK-means 聚 类 (CK=2)， 如 图 2-6 所 示 。 
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图 2-6 威斯康星 州 乳腺 癌 数 据 集 的 K-means 聚 类 〈 天 =2) 



































毫 不 奇怪 ， 








入 竺 


对 于 y<-20 结果 相当 准确 ， 


晶 是 算法 不 能 同时 包含 边界 点 (y 完 0) i 














要 恶性 聚 类 中 。 这 主要 是 由 


原始 集 的 非 凸 性 造成 的 , 用 K-means 来 解决 这 个 问题 非常 




















困难 。 


此 外 ， 在 投影 中 ， 大 多 数 y~0 的 恶性 样本 与 良性 样本 混合 在 一 起 ， 因 此 基于 邻近 度 的 其 他 


方法 也 具 

















况 下 ， 混 合集 似乎 具有 很 强 的 内 聚 | 





而 ， 为 了 达到 我 们 的 目的 ， 
的 值 。 在 有 >2 的 情况 下 ， 





了 较 高 的 误差 概率 。 正 确 
属于 同一 类 别 的 点 可 以 被 轩 ” 中 的 球 捕获 ， 那 么 K-means 也 可 以 成 功 。 不 幸 的 是 ,在 这 种 情 
生 ， 因 此 我 们 不 能 期 望 在 没有 转换 的 情况 下 提高 性 能 。 然 

















分 离 这 些 样品 的 唯一 机 会 来 自 原始 分 布 。 事 实 上 ， 



































如 果 

















这 个 结果 人 允许 我 们 应 用 主要 的 评估 指标 ， 然 后 从 天 = 2 移 至 更 大 





我 们 将 分 析 某 些 聚 类 ， 


并 将 它们 的 结构 与 配对 图 进行 比较 。 
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2.5 评估 指标 











在 本 节 中 ， 我 们 将 分 析 一 些 常用 的 方法 ， 这 些 方法 可 用 于 评估 聚 类 算法 的 性 能 ， 并 有 
助 于 找到 最 佳 的 聚 类 数 。 


2.5.1 最 小 化 惯性 


K-means 及 其 类 似 算法 的 最 大 缺点 之 一 是 对 聚 类 数量 的 明确 要 求 。 有 时 ， 这 一 信息 是 
日 外 部 约束 《例如 在 乳腺 癌 的 例子 中 ， 只 有 两 种 可 能 的 诊断 ) 强加 的 , 但 在 许多 情况 下 ( 当 
需要 探索 性 分 析 时 )， 数 据 科 学 家 必须 检查 不 同 的 配置 并 评估 它们 。 评 估 K-means 性 能 并 选 
择 适 当 数 量 聚 类 的 最 简单 方法 是 基于 不 同 最 终 惯性 的 比较 。 
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让 我 们 从 下 面 的 简单 示例 开始 ， 该 示例 基于 scikit-learn 的 函数 make_blobsO 生 成 的 12 
个 非常 紧凑 的 高 斯 斑点 : 

















from sklearn.datasets import make blobs 


X, Y = make blobs (n samples=2000, n features=2, centers=12, 
cluster std=0.05, center box=[-5, 5],random state=100) 


这 些 斑点 如 图 2-7 所 示 。 
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图 2-7 数据 集 由 12 个 不 相交 的 二 维 斑点 组 成 
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现在 我 们 来 计算 聚 类 数量 KE [2, 20] 的 惯性 (在 一 个 训练 有 素 的 KMeans 模型 中 可 用 作 
实例 化 变量 inertia )， 如 下 所 示 : 
































from sklearn.cluster import KMeans 
inertias = [] 
for i in range(2, 21): 
km = KMeans (n clusters=i, max iter=1000, random state=1000) 


km.£it (xX) 


inertias.append (km.inertia ) 


函数 关系 如 图 2-8 所 示 。 
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图 2-8 ”惯性 与 聚 类 数量 的 函数 关系 


图 2-8 显示 了 一 种 常见 的 行为 。 当 聚 类 的 数目 非常 小 时 ， 密 度 成 比例 地 降低 ， 因 此 内 聚 
力 较 低 ， 惯 性 较 高 。 增 加 聚 类 的 数量 迫使 模型 创建 更 多 的 内 聚 群体 ， 惯 性 开始 突然 减少 。 
如 果 我 们 继续 这 个 过 程 至 M 关 玉 ， 将 观察 到 缓慢 的 逼近 与 配置 相对 应 的 值 ， 其 中 天 = 1M 
《每 个 样本 都 是 一 个 聚 类 )。 一 般 的 启发 式 规则 《在 没有 外 部 约束 时 ) 是 选择 对 应 于 将 高 变 
化 区 域 与 几乎 平坦 区 域 分 开 的 点 的 聚 类 数 。 这 样 ， 我 们 就 可 以 确保 所 有 聚 类 在 没有 内 部 碎 
片 的 情况 下 都 达到 了 最 大 的 内 聚 力 。 当 然 ， 在 这 种 情况 下 ， 如 果 我 们 选择 K=15， 其 中 9 
个 斑点 将 被 分 配 到 不 同 的 聚 类 ， 而 其 他 3 个 斑点 将 被 分 成 两 部 分 。 显 然 ， 当 我 们 分 割 一 个 
高 密度 区 域 时 ， 人 惯性 仍然 很 低 ， 但 最 大 分 离 原理 不 再 适用 。 


我 们 现在 可 以 用 KE [2, 50] 的 威斯康星 州 乳 腺 癣 数据 集 习 
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复 该 试验 ， 如 下 所 示 : 





2.5 评估 指标 35 
from sklearn.cluster import KMeans 
inertias = [] 
for i in range(2, 51): 
km = KMeans (n clusters=i, max iter=1000, random state=1000) 


Km fit (cdf) 
inertias.append (km.inertia ) 


函数 关系 如 图 2-9 所 示 。 
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2-9 ”惯性 与 威斯康星 州 乳腺 癌 数 据 集聚 类 数量 的 关系 函数 

















在 这 种 情况 下 ,基本 事实 建议 我 们 应 该 根据 诊断 结果 分 成 两 组 。 然而 ,该 图 显示 了 一 个 急 
剧 的 下 降 ， 结 束 于 天 一 8 并 继续 向 下 倾斜 直到 大 约 K 二 40。 在 初步 分 析 过 程 中 ， 我 们 可 以 发 现 
二 维 投影 是 由 许多 具有 相同 诊断 的 孤立 斑点 组 成 的 。 因 此 ， 我 们 可 以 决定 采用 例如 K=8 并 分 
析 每 个 聚 类 对 应 的 特征 。 由 于 这 不 是 一 个 分 类 任务 ， 因 此 基本 事实 可 以 作为 主要 参考 ， 但 是 正 


确 的 探索 性 分 析 应 该 尝试 理解 子 结构 的 组 成 , 以 便 为 技术 人 员 (例如 医生 ) 提供 进一步 的 细节 。 
现在 让 我 们 在 威斯康星 州 乳 腺 癌 数 据 集 上 执行 一 个 具有 8 个 聚 类 的 Kmeans 聚 类 分 析 ， 
以 描述 两 个 样本 组 的 结构 ， 如 下 所 示 : 
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import pandas as pd 


from sklearn.cluster import KMeans 
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km = KMeans (n clusters=8, max iter=1000, random _ state=1000) 
Y pred = km.fit predict (cdf) 
df km = pd.DataFrame (Y pred, columns=['prediction'], index=cdf.index) 
kmdff = pd.concat ([dff, df km], axis=1) 
聚 类 结果 如 图 2-10 所 示 。 
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图 2-10 威斯康星 州 乳腺 癌 数 据 集 的 KK-means 聚 类 CK=8) 结果 











现在 我 们 来 考虑 位 于 





图 底部 的 子 聚 类 (-25 <x< 30 和 -60 <y<-40)， 如 下 所 示 : 


sdff = dff[ (dff.x > -25.0) 
-40.0)] 
print (sdff[['perimeter mean', 


& (dff < 30:0) 所 (dffiYy > =600.0) € (dffy,< 


'area mean', 'smoothness mean', 


'concavity mean', 'symmetry mean']] .describe()) 








恶性 聚 类 的 统计 描述 的 友好 打印 版 本 如 表 2-2 所 示 。 








表 2-2 恶性 聚 类 的 统计 描述 
perimeter_mean area mean | smoothness _ mean concavity_mean symmetry_mean 
count | 58.000000 58.000000 58.000000 58.000000 58.000000 
mean | 129.822414 1199.527586 | 0.100231 0.176981 0.193281 
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perimeter_mean area mean | smoothness _ mean concavity_mean symmetry_mean 
std 6.503630 98.030806 0.010427 0.063437 0.027702 
min | 110.000000 904.600000 | 0.080200 0.086900 0.142800 
25% | 125.675000 1138.000000 | 0.091568 0.134600 0.176925 
Ss0% | 130.000000 1210.500000 | 0.100200 0.161000 0.189750 
75% | 133.800000 1271.750000 | 0.107600 0.212650 0.209100 
max | 143.700000 1386.000000 | 0.128600 0.375400 0.290600 

根据 基本 事实 ， 我 们 知道 所 有 这 些 样本 都 是 恶性 的 ， 但 我 们 可 以 尝 a 


area_mean/perimeter_mean 约 为 9.23， 与 平均 值 相 比 ， 相 对 标准 差生 
代表 了 很 窄 范围 
因此 《在 没有 科学 合 刀 
代表 了 已 经 进入 


为 了 与 良性 样 


sdff = 
print (sdff[['perimeter mean', 















































dffl(dffs 


内 的 扩展 肿瘤 。 
理 分 析 的 假 
晚期 的 非常 严重 的 肿瘤 。 


本 进行 比较 ， 现 在 让 我 们 考虑 由 

















x > -10.0) 








设 下 )， 我 们 可 以 得 出 这 样 的 结论 : 分 

















"area mean', 















































小 。 


而 且 ，concavity_mean 和 symmetry_mean 均 大 于 整体 值 。 























这 意味 着 这 些 样本 





























给 这 些 聚 类 的 样本 





Xx>-10 和 20<y<50 界定 的 区 域 ， 如 下 : 


(dff.y > 20.0) 


& (dff.y < 50.0)] 


'smoothness mean', 


























'concavity mean', 'symmetry mean']] .describe()) 
良性 聚 类 的 统计 描述 如 表 2-3 所 示 。 
表 2-3 良性 聚 类 的 统计 描述 
perimeter_mean area mean | smoothness _ mean concavity_mean symmetry_mean 

count | 114.000000 114.000000 114.000000 114.000000 114.000000 
mean | 64.997719 318.138596 | 0.095768 0.044920 0.181869 
std 6.752474 62.522359 0.014881 0.058654 0.029075 
min | 43.790000 143.500000 | 0.052630 0.000000 0.106000 
25% | 60.437500 275.075000 | 0.085127 0.012688 0.164000 
S0% | 65.800000 321.600000 | 0.096720 0.028290 0.179550 
75% | 70.790000 373.075000 | 0.104275 0.056798 0.195175 
max | 75.460000 409.100000 | 0.163400 0.410800 0.274300 
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在 这 种 情况 下 ，area_mean/perimeter_mean 约 为 4.89， 但 是 area_mean 具有 较 大 的 标准 差 








(实际 上 ， 其 最 大 值 约 为 410)。concavity mean 相对 于 悉 怕 
相同 )， 而 symmetry_mean 几乎 等 同 。 从 这 个 简短 的 分 析 中 ， 我 们 可 以 推 









































E 聚 类 来 说 非常 小 《即使 标准 差 大 至 
断 出 Symmetry mean 


不 是 判别 特征 ， 而 当 area mean/perimeter mean 小 于 5$.42 〈 考 虑 最 大 值 ) 与 concavity mean 
小 于 或 等 于 0.04 时 可 以 保证 一 个 良性 的 结果 。 由 于 concavity _ mean 的 最 大 值 可 以 达到 非常 


























大 (大 于 与 恶性 样本 相关 的 值 ), 因此 还 需要 考虑 其 他 特征 , 以 确定 其 信 















































是 否 应 被 视 为 警报 。 














然而 ， 我 们 可 以 得 出 全 生计 即 属于 这 些 聚 类 的 所 有 样本 都 是 良性 的 ， 误 差 概率 可 以 























忽略 不 计 。 我 想 重复 一 下 ， 这 更 多 的 是 一 个 练习 ， 而 不 是 一 个 实际 的 分 析 。 在 这 种 情况 下 ， 




















数据 科学 家 的 主要 任务 是 收集 文 持 结论 的 上 下 文 信息 。 





























种 验证 过 程 也 始终 是 强人 
2.5.2 轮廓 分 数 


< 



























































性 的 ， 因 为 潜在 原因 的 复杂 
























































即使 在 存在 基本 事实 的 情况 下 ， 这 
性 可 能 导致 完全 错误 的 陈述 和 规则 。 





在 不 了 解 基本 事实 的 情况 下 ， 评 估 聚 类 算法 性 能 的 最 常用 方法 是 轮廓 分 数 (Silhouette 
Score)。 它 提供 了 每 个 样本 索引 和 全 局 图 形 表示 ， 显 示 了 聚 类 的 内 部 一 致 性 和 分 离 水 平 。 
为 了 计算 分 数 ， 我 们 需要 引入 两 个 辅助 度量 。 第 一 个 是 























平均 聚 类 内 距离 








GD)= DAG) VE ek, 





假设 |&| = n( 站 基数 的 样本 xiEK 的 


对 于 K-means， 假 设 距 离 为 欧 氏 距离 ， 没 有 具体 的 限制 。 但 是 ds) 必须 与 聚 类 过 程 中 




















使 用 的 距离 函数 相同 。 
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给 出 一 个 样本 x;ekK， 让 我 们 引入 第 二 个 辅助 度量 ， 将 最 
门 还 可 以 定义 最 小 的 最 近 聚 类 距离 〈 作 为 平均 最 近 聚 类 距离 ): 


OR 
b(x)= 2 4 全 ) viek. 








通过 这 两 个 度量 ， 我 们 可 以 定义 jEX 的 轮廓 分 数 : 
bp(5) — a 


) 





s(T) = 


max(a(x,),b(x,)) 


分 数 s(*)e(-1, 1)。 当 s(*) 王 -1， 这 意味 着 b(*)<a(*)， 
其 他 样本 更 接近 最 近 的 聚 类 K.。 此 情况 表示 分 配 错误 。 相 反 ， 当 s(*) 一 1, 5b(*) 沁 a(*) 时 ， 样 
本 x 更 接近 它 的 近 领 (属于 同一 个 聚 类 )， 而 不 是 分 配给 最 近 

































































是 最 佳 条 件 ， 也 是 微调 算法 时 采用 的 参考 。 然 而 ， 由 




















括 聚 类 的 任 





近 的 聚 类 表示 为 Kc。 这 样 ， 


因此 样本 xe 比分 配给 KK 的 




















可 其 他 点 。 显 然 ， 这 











于 这 个 指标 不 是 





人 





局 的 ， 所 以 引入 轮 


2.5 评估 指标 39 


廊 图 是 很 有 帮助 的 ， 它 显示 了 每 个 样本 获得 的 分 数 ， 按 察 类 分 组 并 按 降 序 排序 。 


让 我 们 考虑 一 下 K= {2、4、6、8} 时 威斯康星 州 乳腺 癌 数 据 集 的 轮廓 图 (完整 代码 包 


含 在 存储 库 中 )， 如 图 2-11 所 示 。 
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图 2-11 威斯康星 州 乳腺 癌 数 据 集 的 轮 廊 图 
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第 一 个 图 显示 的 是 K=2 的 自然 聚 类 。 第 一 个 轮廓 非常 锐利 ， 表 明 平均 聚 类 间距 离 有 很 大 
的 差异 。 此 外 , 一 个 聚 类 比 另 一 个 聚 类 有 更 多 的 分 配 〈 即 使 它 不 那么 锐利 )。 从 数据 集 描述 中 ， 


我 们 知道 这 两 个 类 是 不 平衡 的 (357 个 良性 对 212 个 恶性 )， 因 此 不 对 称 是 部 分 合 型 





的 。 然 而 ， 











一 般 来 说 ， 当 数据 集 平 衡 时 ， 一 个 好 的 轮廓 图 的 特征 是 均匀 的 聚 类 ， 其 圆 形 轮廓 应 接近 1.0。 
事实 上 ， 当 形状 类 似 于 长 雪茄 时 ， 这 意味 着 聚 类 内 距离 非常 接近 它们 的 平均 值 〈 高 内 聚 力 )》， 
并 且 相 邻 聚 类 之 间 有 明显 的 分 离 。 当 K=2 时 我 们 有 合理 的 分 数 ， 因 为 第 一 个 聚 类 达到 0.6， 而 
第 二 个 的 峰值 大 约 为 0.8。 然 而， 在 后 者 中 ， 大 多 数 样本 的 特征 是 s(*) > 0.75， 在 前 一 个 样本 
中 ， 大 约 一 半 样 本 低 于 0.5。 这 一 分 析 表 明 ， 较 大 的 聚 类 更 为 均匀 ，K-means 更 容易 分 配 样本 
( 即 在 度量 方面 ，x;E Kz 的 方差 较 小 ， 在 高 维 空间 中 ， 代 表 & 的 球 比 代表 Ki 的 球 更 均匀 )。 
其 他 的 图 显示 了 类 似 的 场景 ， 因 为 已 经 检测 到 非常 内 聚 的 聚 类 和 一 些 锐利 的 聚 类 。 这 
意味 着 宽度 差异 非常 一 致 。 然 而 ， 增 加 天 使 得 分 配 的 样本 数量 趋 于 相似 ， 所 以 我 们 得 到 了 
更 均匀 的 聚 类 。 一 个 非常 圆 〈 几 乎 是 矩形 ) 的 聚 类 存在 于 s(*) > 0.75， 确 认 了 数据 集 至 少 包 
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含 一 组 非常 内 聚 的 样本 ， 这 些 样 本 相对 于 分 配给 其 他 聚 类 的 任何 其 他 点 的 距离 非常 近 。 我 
们 知道 恶性 聚 类 《〈 即 使 其 基数 更 大 ) 更 紧 炭 ， 而 良性 聚 类 则 分 布 在 更 宽 的 子 空间 上 。 因 此 ， 
我 们 可 以 假设 所 有 天 ， 最 圆 的 聚 类 是 由 恶性 样本 组 成 的 ， 其 他 的 都 可 以 根据 它们 的 锐 度 来 
区 分 。 例 如 对 于 K=8， 第 三 个 聚 类 很 可 能 与 第 一 个 图 中 第 二 个 聚 类 的 中 心 部 分 相对 应 ， 而 
较 小 的 聚 类 包含 属于 良性 子 集 孤立 区 域 的 样本 。 


如 果 我 们 不 知道 基本 事实 ， 则 应 该 同时 考虑 K=2 和 K=8 (甚至 更 大 )。 事 实 上 ， 在 第 
一 种 情况 下 , 我 们 可 能 会 丢失 许多 细 粒 度 的 信息 , 但 我 们 正在 确定 一 个 强大 的 细 分 领域 ( 假 
设 由 于 问题 的 性 质 ， 一 个 聚 类 并 不 具有 很 强 的 内 聚 性 )。 在 第 二 种 情况 下 ， 当 天 >8 时 聚 类 
明显 较 小 ， 具 有 中 等 较 高 的 内 聚 性 ， 它 们 代表 了 具有 一 些 共 同 特征 的 子 集 。 正 如 我 们 在 2.4 
os 企 的 ， 最 终 的 选择 取决 于 许多 因素 ， 这 些 工具 只 能 提供 一身 的 指示 。 此 外 ， 当 聚 

是 非 凸 的 或 其 方差 在 所 有 特征 中 分 布 不 均匀 时 ，K-means 总 是 会 产生 次 优 性 能 ， 因 为 | 
此 产生 的 和 案 类 将 包含 大 的 空白 空间 。 如 果 没 有 特定 的 方向 ， 最 佳 聚 类 数 与 包含 均匀 (宽度 
大 致 相同 ) 的 圆 形 的 图 相关 联 。 如 果 对 于 任何 玉 值 ， 数 据 集 轮廓 保 持 锐利 ， 则 意味 着 几何 
体 与 对 称 测量 不 完全 兼容 〈 例 如 聚 类 拉 伸 很 大 )， 应 考虑 其 他 方法 。 


2.5.3 ”完整 性 分 数 


这 项 度量 (以 及 今后 讨论 的 所 有 其 他 度量 是 基于 对 基本 事实 的 了 解 。 在 引入 指标 之 
前 ， 定 义 一 些 公共 值 是 很 有 帮助 的 。 如 果 我 们 用 Xi 表示 包含 真正 赋值 的 集合 ， 用 Ys 表 
示 一 组 预测 集合 (包含 M 值 入 聚 类 )， 则 可 以 估算 以 下 概率 : 









































































































































































































































































































































































































































nu (Kk) 
了 < 大 K Ea true 
Dp( true ) M 
n red (Kk) 
Pp(Y,oq > k K) = 











在 前 面 的 公式 中 ，nywwjyred( 有 表示 属于 聚 类 kEK 的 真实 /预测 的 样本 数 。 此 时 ， 我 们 可 
以 计生 Vie 和 也 ed 的 灶 o 
a Mie (Kk) Hie (A) 
lla) De ol | 















































考虑 到 箭 的 定义 ， 玉 9) 通 过 均匀 分 布 最 大 化 ， 而 均匀 分 布 反 过 来 又 对 应 于 每 个 分 配 的 
最 大 不 确定 性 。 出 于 我 们 的 目的 ， 我 们 还 必须 引入 给 定 3oy 的 7we 的 条 件 焙 ( 表 示 已 知 另 
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一 个 分 布 的 不 确定 性 ) 
2 乃 j ur| iN) 
Ys |¥,,a) = -> ， 人 ea; No | 
nb, nis) 
er 
函数 ni 站 在 第 一 种 情况 下 ,表示 分 配给 Kj 的 具有 真实 标签 i 的 样本 数 ; 在 第 二 种 情况 
下 ， 表 示 分 配给 K; 的 具有 真实 标签 的 样本 数 。 
完整 性 分 数 定义 为 : 
_ 也 (也 red | Yc) 
H (Yea) 
很 容易 理解 当 所 YoalYiwe) 一 0 时 ，Yowe 的 已 知 减少 了 预测 的 不 确定 性 ， 因 此 ，c 一 1。 这 
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相当 于 所 有 上 共有 相同 真实 标签 的 样本 都 被 分 配 到 同一 个 聚 类 。 相 反 ， 当 (Yea|Yowe) HYprea) 























时 ， 则 意味 着 基本 事实 不 会 提供 任何 减少 预测 不 确定 性 的 信息 ， 并 且 c 一 0。 
当然 ， 一 个 好 的 聚 类 的 特征 是 c->1。 在 威斯康星 州 乳腺 癌 数 据 集 的 案例 中 ， 使 


scikit-learn 的 函数 completeness_score() 〈 也 适用 于 文本 标签 ) 和 KK= 2 唯一 与 基本 

































































dd 


关 的 配置 ) 计算 的 完整 性 分 数 如 下 : 























import pandas as pd 


from sklearn.cluster import KMeans 


from sklearn.metrics import completeness score 


km = KMeans (n clusters=2, max iter=1000, random state=1000) 


Y pred = km.fit predict (cdf) 


df_km = pd. 
kmdff = pd. 


print('Completeness: {}'.format (completeness score (kmdff['diagnosis' 


DataFrame (Y pred, columns=['prediction'], index=cdf.index) 
concat ([dff, df km], axis=1) 





kmdff['prediction']))) 


代码 段 的 输 





如 下 : 


Completeness: 0.5168089972809706 








实 相 




















]， 


这 个 结果 证 实 了 当 玉 = 2 时 ，K-means 不 能 完全 分 离 内 聚 。 因 为 正如 我 们 所 看 到 的 ， 有 
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一 些 恶 性 样本 错误 地 分 配给 了 包含 绝 大 多 数 良 性 样本 的 聚 类 。 但 是 ， 由 于 c 不 是 非常 小 ， 
我 们 可 以 确定 两 个 类 的 大 多 数 样本 都 已 分 配给 不 同 的 聚 类 。 请 读者 使 用 其 他 方法 (将 在 第 
3 章 中 讨论 ) 来 检验 该 值 ， 并 对 不 同 结果 作 简 要 说 明 。 

2.5.4” 同 质 性 分 数 


这 个 同 质 性 分 数 是 对 完整 性 分 数 的 补充 ， 它 基于 这 样 的 假设 : 聚 类 必须 只 包含 具有 相 
同 真实 标签 的 样本 。 定 义 如 下 : 

















































































































Ee wig 已 (了 | Yo ) 
H(Y,,) 


与 完整 性 分 数 类 似 ， 当 克 Yic|Yjeq) 一 H(Ywwe) 时 ， 意 味 着 赋值 对 条 件 米 没有 影响 ， 因 此 
在 聚 类 之 后 不 确定 性 不 会 降低 〈 例 如 每 个 聚 类 包含 属于 所 有 类 的 样本 )， 并 且 /一 0。 相 反 ， 
当 KYiwc|7yweq) 一 0 时 ，h 一 1， 因 为 对 预测 的 了 解 减少 了 对 真实 分 配 的 不 确定 性 ， 并 且 聚 类 
几乎 只 包含 具有 相同 标签 的 样本 。 重 要 的 是 要 记 住 ， 仪 仅 用 这 个 分 数 评估 是 不 够 的 ， 因 为 
它 不 能 保证 一 个 聚 类 包含 所 有 具有 相同 真实 标签 的 x;EX 样本 。 这 就 是 同 质 性 分 数 总 是 和 
完整 性 分 数 一 起 评估 的 原因 。 


威斯康星 州 乳腺 癌 数 据 集 在 K=2 时 ， 我 们 得 出 以 下 结论 : 











































































































































































































from sklearn.metrics import homogeneity score 


print('Homogeneity:{ }'.format (homogeneity score (kmdff['diagnosis'],kmdff 
['prediction']))) 


相应 输出 如 下 : 


Homogeneity: 0.42229071246999117 











Th 














这 个 值 〈 特 别 是 玉 =2) 证 实 了 我 们 最 初 的 分 析 ， 至 少 有 一 个 聚 类 (具有 大 多 数 良 性 术 
本 的 聚 类 ) 不 是 完全 同 质 的 ， 因 为 它 包含 属于 这 两 类 的 样本 。 但 是 ， 由 于 该 值 不 是 太 接 近 
0， 我 们 可 以 确定 分 配 是 部 分 正确 的 。 考 虑 到 有 hh 和 cc 这 两 个 值 ， 我 们 可 以 推断 K-means 的 表 
现 不 是 很 好 《〈 可 能 是 因为 非 凸 性 )， 但 它 能 够 正确 地 分 离 最 近 聚 类 高 于 特定 阔 值 的 所 有 样本 。 
不 言 而 喻 ， 在 了 解 基 本 事实 的 情况 下 ， 我 们 无 法 轻易 接受 K-means， 而 应 该 寻找 另 一 种 能 
够 同时 满足 h 和 c 一 1 的 算法 。 
使 用 V-measure 在 同 质 性 和 完整 性 之 间 进 行 权衡 


熟悉 监督 学 习 的 读者 应 该 知道 F-score (或 F-measure) 的 概念 ， 这 是 精确 率 和 召回 率 
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的 调和 平均 值 .在 给 出 基本 事实 的 情况 下 评估 聚 类 结果 时 , 我 们 也 可 以 采用 同样 的 权衡 方式 。 


事实 上 ， 在 许多 情况 下 ， 采 用 一 个 兼顾 同 质 性 和 完整 性 的 单一 度量 是 有 帮助 的 。 使 用 
V-measure (或 V-score) 可 以 很 容易 实现 这 样 的 结果 ， 该 定义 为 : 


















































y= 2 _ 2.: Homogeneity. Completeness 





1 1 Homogeneity + Completeness 
Homogeneity Completeness 


对 于 威斯康星 州 乳腺 癌 数 据 集 ， 使 用 V-measure 的 示例 如 下 : 





























from sklearn.metrics import v measure score 


print('V-Score: {}'.format(v measure score (kmdff['diagnosis'],kmdff 


['prediction']))) 





代码 段 的 输出 如 下 : 


V-Score: 0.46479332792160793 























> 





正如 预期 的 那样 ,在 这 种 情况 下 V-Score 是 平均 度量 , 它 受 到 较 低 同 质 性 的 负面 
影响 。 当 然 ， 这 个 指标 没有 提供 任何 不 同 的 信息 ， 因 此 它 只 对 在 单个 值 中 合成 完整 性 和 
同 质 性 有 帮助 。 通 过 一 些 简单 但 乏味 的 数学 操作 ， 可 以 证 明 V-measure 也 是 对 称 的 〈 即 
所 到 ed 有 aa = V(YwwelYwea))， 因 此 ， 给 出 了 两 个 独立 的 分 配 页 和 歹 ， 芍 妨 | 殊 ) 是 它们 之 间 一 
致 性 的 度量 。 这 种 情况 并 不 十 分 常见 ， 因 为 其 他 措施 可 以 取得 更 好 的 效果 。 但 是 ， 我 们 可 
以 使 用 这 样 的 分 数 ， 例 如 检查 两 个 算法 〈 可 能 基于 不 同 的 策略 ) 是 否 倾向 于 生成 相同 的 分 
配 ， 或 者 它们 是 否 不 一 致 。 在 后 一 种 情况 下 ， 即 使 基本 事实 是 未 知 的 ， 数 据 科 学 家 也 可 以 
理解 一 种 策略 肯定 不 如 另 一 种 策略 有 效 ， 并 开始 探索 过 程 以 找 出 最 佳 的 聚 类 算法 。 


2.5.5 ”调整 后 的 相互 信息 分 数 


这 一 分 数 的 主要 目标 是 在 不 考虑 排列 的 情况 下 评估 7 和 了 wy 之 间 的 一 致 性 水 平 。 这 
样 一 个 目标 可 以 用 相互 信息 (Mutual Information，MI) 的 信息 论 概 念 来 衡量 。 在 我 们 的 
例子 中 ， 它 被 定义 为 : 


MT(7 ;了 )= 5 iog M .nl(i, )) 
true?* pred | 
Ei M Me (©) Med (7) 























































































































































































































这 个 函数 与 前 面 定义 的 相同 。 当 M130、n(Gi, 站 nme(ijnwwea ( 访 时 ， 其 项 分 别 与 pli, 让 和 
pie(ijpprea (站 成 上 正比。 因此， 这 个 条 件 等 于 说 Ye 和 马尾 在 统计 上 是 独立 的 ， 缺 乏 共享 信 

















44 第 2 章 聚 类 基础 知识 


息 。 男 一 方面 ， 通 过 一 些 简单 的 操作 ， 我 们 可 以 将 MI 重 写 为 : 








MI(Y,,,; Ya) = 一 已 (也 | Ye) ry H (Ya ) 





因此 ， 若 克 Yyea|Yiwe) 三 H(Yren)， 当 对 基本 事实 的 了 解 减少 了 Yoq 的 不 确定 性 时 ， 将 
导致 也 有 ol 也 oo 一 0 以 及 MI 最 大 化 。 出 于 我 们 的 目的 , 我 们 最 好 考虑 一 个 标准 化 的 版 本 ( 界 
定 在 0 和 1 之 间 )， 也 可 以 根据 概率 调整 《也 就 是 说 ， 考 虑 到 一 个 真正 的 任务 可 能 是 有 一 定 
的 概率 的 )。 这 个 调整 后 的 相互 信息 (Adjusted Mutual Information，AMI) 分 数 的 完整 推 
导 是 非 同 寻常 的 ， 并 且 超出 了 本 书 的 范围 ， 其 定义 如 下 : 


























































































































MI(Y,,,; 也 ez) E> ELMI(Y, ， J )] 


true? 


AMI(Y,,, ) 也 ) 三 
mean(H(Y,, )， H (Yea )) EL[MI(Y,,,; Ya )] 














此 值 在 完全 没有 约定 的 情况 下 等 于 0， 当 Ye 和 Yoa 完 全 一 致 时 在 存在 排列 的 情况 
下 也 是 如 此 ) 等 于 1。 威斯康星 州 乳腺 癌 数 据 集 在 玉 = 2 时， 我们 得 出 以 下 结论 : 




















from sklearn.metrics import adjusted mutual info score 


print('Adj. Mutual info: 
{} .format (adjusted mutual info _ score (kmdff['diagnosis'],kmdff['prediction']))) 





俞 出 如 下 : 


Adj. Mutual info: 0.42151741598216214 









































这 项 约定 是 适度 的 并 与 其 他 度量 兼容 。 假设 存在 排列 和 分 配偶 发 的 可 能 性 , 了 ve 和 Yvon 
共享 中 等 级 别 的 信息 。 因 为 正如 我 们 所 讨论 的 ，K-means 能 够 正确 分 配 重 装 概 率 忽 略 的 所 
有 样本 ， 而 它 倾向 于 考虑 良性 在 两 个 聚 类 边界 上 有 许多 恶性 样本 〈 相 反 ， 它 不 会 对 良性 样 
本 进行 错误 的 分 配 )。 在 没有 任何 进一步 的 指示 下 ， 该 指数 还 建议 检验 其 他 可 以 管理 非 凸 聚 
类 的 聚 类 算法 ， 因 为 缺乏 共享 信息 主要 是 由 于 无 法 使 用 标准 球 〈 尤 其 是 在 重 登 更 为 显著 的 
子 空 间 中 ) 捕获 复杂 的 几何 结构 。 


2.5.6 ”调整 后 的 兰 德 分 数 
调整 后 的 兰 德 分 数 是 真实 标签 分 布 和 预测 标签 分 布 之 间 差 异 的 度量 。 为 了 计算 它 ， 有 
必要 按 如 下 方式 定义 数量 。 
。 a: 表示 具有 相同 真实 标签 0 y) : 乌 = 攻 并 分 配给 同一 个 聚 类 天 的 样本 对 Ce x) 的 数目 。 


e 10: 表示 具有 不 同 真实 标签 (ys yp)) : yi #3 分 配给 不 同 聚 类 K. 和 Ks， 且 cd 的 样 































































































































































































































































































2.5 ”评估 指标 45 
本 对 Gx; x) 的 数目 。 
如 果 有 M 个 值 ， 则 使 用 k=2 的 二 项 式 系数 获得 二 进 制 组 合 的 总 数 ， 因 此 差异 的 初始 




































































_a+b 
(AM 
显然 ， 这 个 值 可 以 由 a 或 5 来 主导 。 在 这 两 种 情况 下 ， 较 高 的 分 数 表明 分 配 符 合 基本 



































事实 。 但 是 ，a 和 2 都 可 能 会 因 偶 发 的 分 配 而 产生 偏差 。 这 就 是 为 什么 要 引入 调整 后 的 兰 
德 分 数 。 更 新 后 的 公式 为 : 














mh 











_ RR—E[AR] 
a max(R)—R 
该 值 在 -1 和 1 之 间 。 一 方面 ， 当 Ry 一 -1 时 ，a 和 2 都 很 小 ， 且 绝 大 多 数 的 分 配 都 是 
错误 的 。 另 一 方面 ， 当 Ri 一 1 时 ， 预 测 的 分 布 非常 接近 真实 情况 。 对 于 威斯康星 州 乳腺 癌 数 
据 集 ， 当 天 =2 时 ， 我 们 得 出 以 下 结论 : 


























































































































from sklearn.metrics import adjusted rand score 


print('Adj. Rand score: {}'.format (adjusted rangd score (kmdff['diagnosis'], 
kmdff['prediction']))) 





代码 段 的 输出 如 下 : 


Adj. Rand index: 0.49142453622455523 




















由 于 该 值 大 于 -1《〈 负 的 极 值 )， 所 以 它 优 于 其 他 指标 。 它 证 实 了 分 布 之 间 的 差异 不 是 和 
明显 ， 这 主要 是 样本 的 子 集 有 限 所 致 。 该 分 数 是 非常 可 靠 的 ， 并 且 可 以 作为 评价 聚 类 算法 
性 能 的 单一 指标 。 接 近 0.5 的 分 值 证 实 了 K-means 不 太 可 能 是 最 优 解 ， 但 数据 集 的 几何 结 
构 几 乎 可 以 完全 被 对 称 球 捕获 ， 除 了 一 些 具有 高 重合 概率 的 非 刷 区 域 。 


2.5.7 ” 列 联 矩阵 


列 联 矩阵 C 是 一 个 在 已 知 真实 情况 时 显示 案 类 算法 性 能 的 非常 简单 且 强 大 的 工具 。 如 
果 有 m 个 类 ，C,E 多”” 且 每 个 元 素 Co 表示 上 共有 已 分 配给 聚 类 j 的 样本 7w=i 的 数量 。 
因此 , 一 个 完美 的 列 联 算 阵 是 对 角 的 , 而 所 有 其 他 单元 格 中 有 元 素 存在 时 ， 则 表示 到 类 错误 。 


在 我 们 的 案例 中 ， 可 以 得 到 以 下 信息 : 
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from sklearn.metrics.cluster import contingency matrix 


cm = contingency matrix(kmdff['diagnosis'] .apply(lambda x: 


else 1), kmdff['prediction']) 


代码 段 的 输出 可 以 可 视 化 为 一 个 热 图 ( 变 












































科学 家 寻找 更 有 效 的 解决 方案 。 


2.6 ” K- 近 邻 





K- 近 邻 是 属于 基于 实例 学 习 类 
是 重新 排列 样本 以 加 速 特定 的 查询 。 














径 邻 域 为 : 


量 cm 是 一 个 2 x 2 的 矩阵 )， 如 图 2-12 所 示 


码 段 的 输出 可 以 可 视 化 为 一 个 热 变 300 
量 cm 是 一 人 矩阵 )， - 示 。 ga 
这 一 结果 表明 ， 几 乎 所 有 良性 样本 都 已 被 间 
正确 聚 类 ， 而 中 等 比例 的 恶性 样本 被 错误 地 分 
配 到 第 一 个 聚 类 。 我 们 已 经 确认 使 用 了 其 他 指 和 
标 , 但 与 分 类 任务 中 的 混淆 矩阵 类 似 , 列 联 甜 0 
阵 允 许 立 即 可 视 化 最 难 分 离 的 类 ， 来 帮助 数据 
































0 if x == 





图 2-12 a 形 表示 


别 的 一 种 方法 。 在 这 种 情况 下 ， 没 有 参数 化 的 模型 ， 而 
在 最 简单 的 情况 下 (也 被 称 为 暴力 搜索 )， 假 设 我 们 有 
一 个 包含 M 个 样本 xjE 办" 的 数据 集 蕊 。 给 定 距 离 函数 des wy)， 可 以 定义 测试 样本 x 的 半 











vz) = :dnt) < R} 

















个 最 近邻 域 ， 即 更 接近 x; (通常 ， 
































集合 v0) 是 以 x 为 中 心 的 球 ， 包 含 了 距离 小 于 或 等 于 R 的 所 有 样本 。 



































它 可 以 5 只 计算 前 


此 集合 是 v(x 的 子 集 ， 但 是 非常 大 时 也 会 发 生 相反 的 














情况 ) 的 样本 k。 这 个 过 程 很 简单 ， 但 遗憾 的 是 ， 从 计算 的 角度 来 看 太 昂贵 了 。 实 际 上 ， 


对 于 每 次 查询 ， 都 需要 计算 MY 的 维 距 离 〈 即 假设 每 次 距离 计算 需要 N 次 操作 ， 则 计算 

复杂 程度 是 O(NM”))， 这 一 条 件 使 得 暴力 搜索 受到 维 数 的 灾难 性 影响 。 例 如 使 用 W= 2 和 
M = 1000， 复 杂 度 是 O(2x10), 但 使 用 N= 1000 和 M= 10000 时 ， 它 变 成 了 O(101)。 例 如 

如 果 每 个 操作 需要 1 纳 秒 ， 查 询 将 需要 100 秒 ， 这 在 许多 实际 情况 下 超出 了 可 容忍 限度 。 



































此 外 ， 对 于 64 位 浮 点 值 ， 每 次 计生 





的 成 对 距离 矩阵 需要 约 764 MB， 考 虎 





这 可 能 也 是 一 个 过 度 的 请 求 。 
出 于 这 些 原 因 ，KNN 仅 在 M 











非常 小 ， 且 在 所 有 其 他 情况 都 依赖 于 和 


























到 任务 的 性 质 ， 


肖 微 复杂 的 结构 时 


才 使 用 暴力 搜索 来 具体 实现 。 第 一 种 蔡 代 方法 是 基于 kd-trees 数据 结构 〈 一 种 二 又 树 对 多 





维 数据 集 的 自然 扩展 )。 
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一 个 具有 三 维 向 量 的 kd-tree 示例 ， 如 图 2-13 所 示 。 















































(8, 4, 3) 
| 

(5, 3, 2) (9, 2 2) 广 第 一 特征 

| _ 
(3, 0, 1) (9, 5, 1) (0, 1, 5) (6, 8, 4) > 第 二 特征 

| [L 
(1, 1, 9) (9, 4, 0) ~ 第 三 特征 

图 2-13 维 向 量 的 kd-tree 示例 
























































kd-tree 的 构造 非常 简单 。 给 定 根 样本 (a1, a3,…, an)， 第 一 个 拆 分 操作 考虑 第 一 特征 ， 使 





左 分 支 包含 (bi < al, …) 以 及 右 分 





特征 等 ， 依 此 类 推 ， 直 到 第 一 特征 到 达 叶 节点 为 止 (分 配给 叶子 的 样本 数 是 一 个 要 调整 的 直 





a 











支 包含 (cl > al，…)。 该 过 程 继 续 执行 第 二 特征 、 第 三 














[a 





参数 。 在 scikit-learn 中 参数 称 为 leaf size， 默 认 值 为 30 个 样本 )。 

当 维 数 N 不 是 非常 大 时 ， 计 算 复杂 度 变 成 O(N log M)， 这 比 暴 力 搜 索要 好 得 多 。 例 如 
使 用 N= 1000 和 M= 10000， 计 算 复杂 度 变 成 0(4000) < 0(101)。 不 幸 的 是 ， 当 NW 很 大 时 ， 
kd-tree 查询 将 变 为 OCWWM)。 因 此 ， 考 虑 到 前 面 的 例子 ， 复 杂 度 为 0(10”)， 比 暴力 搜索 要 好 




















些 ， 但 有 时 对 实时 查询 来 说 仍然 太 晶 贵 
KNN 中 常用 的 第 二 种 数据 结构 是 ball-tree。 在 这 种 情况 下 ， 根 节点 由 Ro-ball 表示 ， 精 








确定 义 为 样本 的 邻 域 : 















































= Group of samples 


Pr,(¥)= {5 :d(%,%) ER} 


选择 第 一 个 球 以 捕获 所 有 样本 。 








他 较 小 的 球 被 嵌入 Pn, 中 ,确保 每 个 样本 始终 局 


于 一 个 球 。 一 个 简单 的 ball-tree 示例 ， 
所 示 。 




















因为 每 个 球 都 是 由 它 的 中 心 oj 决定 的 , 对 


此 时 ， 其 


1 并 








eu 





如 图 2-14 





测试 样本 x; 的 查询 需要 计算 距离 dgCo，ci)。 所 








以 ,我们 从 底部 (最 小 球 的 位 置 ) 天 














F 始 ， 执 行 








完整 的 扫描 。 如 果 没 有 一 个 球 包含 样本 ， 则 会 图 2-14 ”简单 的 ball-tree 示例 
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es 


增加 级 别 ， 
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到 到 达 根 节点 为 止 (请 记 住 ,样本 可 以 属于 单个 球 )。 





说 ,在 给 定 中 心 和 半径 的 情况 下 ， 可 以 通过 单个 距离 计算 来 检查 样本 的 隶 
复杂 度 现在 总 是 O(N log M)。 
E 离 〈 该 值 小 于 叶子 大 小 


这 些 结构 是 在 训练 阶段 构建 的 ,在 生产 阶段 不 进行 修改 。 这 意味 着 我 们 要 仔细 选择 





对 昌 





当然 ,i 


最 小 半径 





时 才能 达到 最 优 。 
k> |v)| 时 ， 算 法 还 必须 检查 相 邻 结构 并 合 
这 些 树 的 优点 就 消失 了 ， 
E 产 用 途 来 选择 正确 
pg 么 等 于 10 的 叶子 大 小 将 优 
反 ， 选 择 一 个 等 于 100 的 叶子 大 小 将 减 慢 这 10 个 邻 域 查询 
以 减少 第 一 个 查询 
我 们 现在 可 以 


的 总 数 相 比 》 


们 必须 考虑 到 


日 





例如 如 


域 适合 些 , 可 





它 由 400 幅 
如 下 所 示 : 














日 
个 


域 的 后 续 查 询 














或 分 配给 叶 节 点 的 相 


换 人 名 














旦 确定 定 征 正确 的 
此 与 数据 集 的 维 




















， 基 











由 于 球 的 特性 〈 也 就 是 
属 关系 )， 计 算 的 


[EE 


























球 ， 样 本 x 的 邻 域 需要 计算 有 限 数 量 的 成 
数 相 比 ， 通 常 可 以 忽略 不 计 )。 








导 


本 数 。 事 实 上 ， 由 于 
舌 说 ， 我 们 希望 在 同一 个 
































软 伯 





FF 的 




















bg 








基于 Olivetti 
64 像素 x64 像素 的 











人 











结果 。 当 然 ， ee 








查询 通常 需要 多 个 邻 域 坊 只 有 当天 < |vCo| 
包含 x; 的 子 结构 中 找到 所 有 的 邻 域 。 每 当 
FE 本 M 

















因为 为 了 响应 查询 ， 











要 计算 太 多 的 成 对 昌 我 








E 离 。 














的 叶子 
一 个 100 个 邻 域 的 初 




















uy 





的 负担 , 但 对 
备 部 数 # 


改 计 


E33 





























化 改善 阶段 ， 但 


居 集 〈 由 scikit-learn 直接 提供 ) 
尺 表 不 同人 物 肖像 的 灰 度 图 像 组 成 。 


大 小 。 
始 查 询 以 及 一 些 (例如 5 个 ) 具有 10 个 邻 
对 第 一 个 查询 有 负面 影响 。 相 
的 速度 。 权 衡 一 下 可 能 25 个 邻 
查询 的 成 对 距离 的 计算 有 一 定 的 负面 影响 。 

分 析 一 个 简短 的 例子 。 
让 我 们 先 加 载 数据 集 




































































~ 





from sklearn.datasets import fetch olivetti faces 


faces 


xX = faces['data 


变量 义 包 含 数 据 集 的 展 平版 本 (400 个 已 在 0 和 1 之 
我 们 可 以 训练 NearestNeighbor 模型 ， 假 设 默 认 查 询 有 10 
于 20 (参数 radius)。 我 们 保持 默认 的 leaf ， 


半径 等 
( 








from 


欧 氏 距 离 )。 该 
现在 可 以 创建 


fetch olivetti faces () 











"] 




















算法 


一 个 NearestNeighbors 实例 并 继续 





基于 一 个 ball-tree， 但 我 建 ; 
训练 模型 : 


间 规 范 化 的 4096 维 


个 


实例 )。 此 时 ， 
本 〈 参 数 n_neighbors) 以 及 
size (30) 并 显 式 设 置 Minkowski 度量 为 p=2 
尺 读者 测试 不 同 的 度量 以 及 kd-tree。 我 们 






























































klearn.neighbors import NearestNeighbors 


knn = NearestNeighbors(n neighbors=10, metric='minkowski', p=2, 


radius=20.0, algorithnm="'bal 


靶 iivs 迭 宇 七 





训练 好 模型 后 ， 使 月 


(X) 





本 


1 七 Yee 








噪声 测试 面部 查找 10 个 最 近 














邻 域 ， 如 下 所 示 : 
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import numpy as np 


i = 20 


test face = X[i] + np.random.normal (0.0, 0.1, size=(X[0].shape[0])) 


噪声 测试 面部 的 绘制 如 图 2-15 所 示 。 




















图 2-15 ”噪声 测试 务 





部 























我 们 可 以 使 用 仅 提 供 测试 样本 的 方法 kneighbors0 来 执行 具有 默认 邻 域 数 的 查询 (如 果 
邻 域 数量 不 同 ， 则 必须 调用 函数 并 提供 参数 n_neighbors)。 如 果 参 数 return_distance=True， 

















该 函数 返回 包含 (distances,neighbors〉 的 元 组 ， 如 下 所 示 : 





distances, neighbors = knn.kneighbors (test face.reshape (1, -1)) 














测试 样本 的 最 近邻 域 及 其 相对 距离 如 图 2-16 所 示 。 








加 天 加 国 阅 一 囊 图 阅 疼 





图 2-16 测试 样本 的 最 近邻 域 及 其 相对 距离 














第 一 个 样本 始终 是 测试 样本 《在 这 种 情况 下 ， 它 被 降 噪 所 以 其 距离 不 是 零 )。 正 如 我 们 所 














看 到 的 ， 即 使 距离 是 一 个 累积 函数 ， 第 二 个 和 第 四 个 样本 也 指 的 是 同一 个 人 ， 而 





























其 他 的 共享 不 





同 的 解 训 元素。 当然， 欧式 距离 不 是 测量 图 像 之 间 差 异 的 最 合适 方法 ,但 这 个 例子 证 实 了 在 一 定 






































程度 上 ， 当 图 像 相 当 相似 时 ， 全 局 距离 也 可 以 为 我 们 提供 有 价值 的 工具 ， 用 来 寻找 相似 的 样本 。 


现在 让 我 们 用 方法 radius_neighbors() 在 设置 radius=100 的 条 件 下 执行 一 个 半径 查询 ， 
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如 下 所 示 : 





import numpy as np 


distances, neighbors = knn.radius neighbors (test face.reshape(1, -1), 
radius=100.0) 
sd, sd arg = np.sort(distances[0]), np.argsort (distances[0]) 











含 前 20 个 邻 域 的 结果 如 图 2-17 所 示 。 


FEFEPFEERE 
-epee er ee 


d=10.01 d=10.26 




























图 2-17 使 用 半径 查询 的 前 20 个 邻 域 


可 以 注意 到 , 有 趣 的 是 距离 并 没有 很 快 地 发 散 (第 二 个 样本 4=8.91 而 第 20 个 4=10.26)。 
这 主要 是 由 于 两 个 因素 : 第 一 个 是 样本 之 间 的 全 局 相似 性 (几何 元 素 和 色调 方面 )， 第 二 个 
可 能 与 欧式 距离 对 4096 维 向 量 的 影响 有 关 。 正 如 在 谈 到 聚 类 基本 原理 时 所 解释 的 那样 ， 高 
维 样本 可 能 缺乏 可 分 辨 性 (特别 是 当 p> 1 时)。 在 这 种 情况 下 ， 图 片 不 同 部 分 的 平均 效果 
可 以 产生 与 分 类 系统 完全 不 兼容 的 结果 。 特 别 地 ， 深 度 学 习 模型 往往 倾向 于 ， 通 过 使 用 可 
以 学 习 检 测 不 同 层次 上 特定 特征 的 卷 积 网 络 来 避免 这 种 陷阱 。 我 建议 用 不 同 的 度量 重复 这 
个 例子 ， 并 观察 p 对 半径 查询 样本 所 显示 的 实际 差异 的 影响 。 


2.7 向量 量 化 


























































































































向 量 量化 是 一 种 利用 无 监督 学 习 对 样本 x;E 办 ”或 整个 数据 集 X 进行 有 损 压缩 的 方法 
(为 了 简单 起 见 , 我 们 假设 多 维 样本 被 展 平 )。 其 主要 的 思想 是 找到 包含 多 个 条 目 C< N 的 代码 
本 O， 并 将 每 个 元 素 与 一 个 条 目 g;s 0 相关 联 。 在 单个 样本 的 情况 下 ， 每 个 条 目 将 表示 一 个 
或 多 个 特征 组 (例如 它 可 以 是 平均 值 ), 因此 , 该 过 程 可 以 描述 为 一 个 变换 7,， 其 一 般 表 示 为 : 


ED (0) (N) 了 >( 也 po ee 
= (x say ) (9259) gc) = 互 


代码 本 定义 为 2 = (gq,q,,…,4c)。 因 此 , 给 定 由 一 组 特征 聚合 〈 例 如 一 组 两 个 连续 元 素 ) 
组 成 的 合成 数据 ，VQ 会 关联 一 个 代码 本 条 目 : 
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[GX ), ,Xo), 9, 


由 于 输入 样本 使 用 汇总 整个 组 的 固定 值 组 合 来 表示 ， 该 过 程 被 定义 为 量化 。 类 似 地 ， 
如 果 输 入 的 是 数据 集 ， 则 转换 将 按 样 本 组 进行 操作 ， 就 像 任 何 标 准 的 聚 类 过 程 一 样 。KNN 
和 VQ 主要 区 别 在 于 目的 : VQ 用 来 表示 具有 质心 的 每 个 聚 类 ， 从 而 减少 了 数据 集 的 方差。 
这 个 过 程 是 不 可 逆 的 。 一 旦 转换 完成 ， 就 不 可 能 重建 原始 聚 类 〈 唯 一 可 行 的 方法 是 从 具有 
相同 原始 均值 和 协 方差 的 分 布 中 采样 ， 但 显然 重建 的 是 一 个 近似 值 )。 

让 我 们 从 一 个 非常 简单 的 高 斯 数据 集 的 例子 开始 ， 如 下 所 示 : 












































import numpy as np 


nb samples = 1000 
data = np.random.normal (0.0, 1.5, size= (nb samples, 2)) 


n vectors = 16 
qv = np.random.normal (0.0, 1.5, size=(n vectors, 2)) 


我 们 的 目标 是 用 16 个 向 量 表示 数据 集 。VQ 示例 向 量 的 初始 配置 如 图 2-18 所 示 。 
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图 2-18 ”VQ 示例 向 量 的 初始 配置 
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当 我 们 使 用 随机 数 时 ， 同 一 代码 的 后 续 执行 会 产生 不 同 的 初始 配置 。 该 程序 迭代 所 有 
样本 ， 选 择 最 近 的 量化 向 量 ， 并 将 其 距离 减少 一 个 固定 量 delta=0.05， 如 下 所 示 : 














import numpy as np 


from scipy.spatial.distance import cdist 


delta = 0.05 
n iterations = 1000 


for i in range(n iterations): 
for p in data: 
distances = cdistl(gqv, np.expand dims (p, axis=0)) 
qvi = np.argmin (distances) 
alpha = p -qv[qvil] 
qv[qvi] += (delta * alpha) 


distances = cdist (data, qyv) 
Y qv = np.argmin (distances, axis=1) 

















除了 固定 的 for 循环 , 我 们 还 可 以 使 用 while 循环 来 检查 量化 向 量 是 否 已 达到 稳定 状态 
(比较 在 时 间 t 和 t+1 时 向 量 的 范 数 )。 这 个 过 程 结 束 时 的 结果 如 图 2-19 所 示 。 
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图 2-19 ”量化 向 量 的 最 终 配 置 《 左 ) 和 每 个 量化 向 量 的 影响 区 域 〈 右 ) 


正如 预期 的 那样 , 量化 向 量 已 达到 最 终 配 置 , 其 中 每 个 向 量 表示 数据 集 的 一 小 部 分 (如 
图 2-19 的 右 图 所 示 )。 此 时 ， 给 定 一 个 点 ， 最 近 的 向 量 将 表示 它 。 有 趣 的 是 ， 全 局 方差 没有 
受到 影响 ， 但 是 选择 任何 子 集 ， 内 部 方差 都 会 显著 降低 。 向 量 的 相对 位 置 反映 了 数据 集 的 
密度 ， 因 为 一 个 区 域 中 的 更 多 样本 吸引 了 更 多 向 量 。 通 过 这 种 方式 构建 距离 矩阵 ， 就 可 以 
得 到 粗略 的 密度 估计 《例如 当 一 个 向 量 与 其 近邻 之 间 的 平均 距离 较 高 时 ， 这 意味 着 潜在 区 
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域 的 密度 较 低 )。 我 们 将 在 第 6 章 中 更 详细 地 讨论 这 个 主题 。 


现在 让 我 们 来 考虑 一 个 示例 ， 其 中 一 个 样本 表示 滨 能 的 图 像 。 处 理 过 程 可 能 很 长 。 第 一 
步 是 加 载 RGB 图 像样 本 (由 SciPy 提供 )， 并 将 其 尺寸 调整 为 192 像素 x 256 像素 ， 如 下 所 示 : 


























from scipy.misc import face 
from skimage.transform import resize 


picture = resize (face (gray=False), output shape=(192, 256), mode="'reflect') 





VQ 示例 的 RGB 图 像样 本 (已 在 [0, 1] 范 围 内 标准 化 如 图 2-20 所 示 。 





0 50 100 150 200 250 








图 2-20 VQ 示例 的 RGB 图 像样 本 

我 们 要 用 2 x 2 的 正方 形 区 域 〈 由 包含 2x2x3 个 扁平 化 的 向 量 ) 计算 24 个 向 量 来 执 
行 VQ。 但 是 ， 我 们 不 需要 从 头 开始 执行 这 个 过 程 ， 而 是 使 用 K-means 算法 来 找到 质心 。 
第 一 步 是 收集 所 有 的 正方 形 区 域 ， 如 下 所 示 : 

















import numpy as np 


square fragment size = 2 
n fragments = int (picture.shape[0] * picture.shapel[l1l] /(square fragment 
size**2)) 


fragments = np.zeros (shape=(n fragments, square fragment size**2 *picture. 
shape[2])) 
idx = 0 
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for i in range(0, picture.shape[0], square fragment size) : 
for j in range(0, picture.shape[l1l], square fragment size): 





fragments[idx] = picture[i:i + square fragment size, 








j:j] + square fragment size, :].flatten() 
idx += 1 





此 时 ， 可 以 使 用 24 个 量化 向 量 执行 K-means 聚 类 ， 如 下 所 示 ; 





from sklearn.cluster import KMeans 


n qvectors = 24 


km = KMeans (n clusters=n qvectors, random state=1000) 
km.fit(fragments) 


dvs = km.predict (fragments) 








在 训练 结束 时 ， 变 量 qvs 将 包含 与 每 个 正方 形 区 域 相关 联 的 质心 的 索引 (通过 实例 变 


量 cluster centers 获得 )。 


现在 可 以 使 用 质心 构建 量化 图 像 ， 如 下 所 示 : 


























import numpy as np 


qv_ picture = np.zeros (shape=(192, 256, 3)) 
idx = 0 





for i in range(0, 192, square fragment size): 
for j in range(0, 256, square fragment size): 








qv picture[i:i + Square fragment size, 








j:j + square fragment size, :] = \ 
km.cluster centers [qvs[idx]].\ 
reshape( (square fragment size, square fragment size, 3)) 
idx += 1 








24 个 向 量 量化 图 像 如 图 2-21 所 示 。 


这 很 明显 是 原始 图 像 的 有 损 压 缩 版 本 。 每 个 组 都 可 以 用 一 个 指向 代码 本 〈km.cluster_ 
centers_) 中 条 目的 索引 《例如 在 我 们 的 例子 中 ， 它 可 以 是 一 个 8 位 整数 ) 来 表示 。 所 以 ， 
如 果 最 初 有 192 x 256 x 3= 147456 个 8 位 值 ， 那 么 量化 后 有 12288 个 8 位 索引 (2 x 2 x 3 
块 ) 加 上 24 个 12 维 量化 向 量 。 为 了 理解 VQ 对 图 像 的 影响 ， 可 以 绘制 原始 图 像 和 量化 图 
像 的 RGB 直方 图 ， 如 图 2-22 所 示 。 
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图 2-21 24 个 向 量 量 化 图 像 
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图 2-22 原始 图 像 (上 ) 和 量化 图 像 (下 ) 的 RGB 直方 图 











对 于 不 熟悉 柱状 图 的 读者 ， 我 们 可 以 简单 地 将 其 描述 为 拥 
有 一 个 数据 集 卫 以 及 固定 数量 的 柱状 。 每 个 单元 格 者 分配 
一 个 范围 (从 min(X) 开 始 ， 结 束 于 max(X))， 并 且 每 个 范 
围 (4a,b ) 与 样本 数量 相关 ， 使 得 a < x <b。 结 果 与 生成 天 
的 实际 概率 分 布 的 近似 值 成 比例 。 在 我 们 的 例子 中 ， 在 x 
轴 上 ， 每 个 通道 (8 位 ) 的 每 个 像素 都 有 所 有 可 能 的 值 ， 
而 》 轴 代表 估计 的 频率 ( Nx/ 像素 总 数 )。 
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可 以 看 出 ， 























数量 具有 减少 近似 值 的 效果 ， 生 成 不 太 
而 ， 我 建议 读者 用 其 他 图 像 和 不 同 数 时 





本 书 的 范围 ， 然 1 
以 将 原始 图 像 的 




















EH 
结果 : 








量化 减少 了 信息 量 ， 但 直方 图 倾向 于 重 现 原来 的 信息 量 。 
明显 差异 的 直方 图 。 对 这 
























































增加 量化 向 量 的 
主题 的 全 面 分 析 超 出 了 


的 量化 向 量 来 测试 这 个 过 程 ， 也 可 


( 协 ) 方差 (或 粹 ) 与 量化 图 像 进行 比较 ， 找 到 一 个 保持 在 80% 方 差 的 
闪 值 。 例 如 只 考虑 红色 通道 并 使 用 频率 统计 近似 每 个 值 (0= 255) 的 概率 ， 我 们 得 出 以 下 



































import numpy as np 


p_original 


H original 


3 oN 





pq = hist 


hist original, _ = np.histogram(picturel[:, 
hist q, _ = np.histogram(gqv picture[:, :, 





Co 


0] 


.flatten () 
.flatten () 


= hist original / np.sum(hist original) 


20D. 0 
* 550 


= -np.sum(p_original * np.l1o0g2(p original + le-8)) 


q / np.suml(hist q) 
sum(p 9q * np.log2(p 9 + le-8)) 


bits'.format (H original, H_q)) 










































































print('Original entropy: {0:.3f} bits -Quantized entropy: {1: 





bins=256) 


bins=256) 


“3£]} 





代码 段 的 输出 如 下 : 

Original entropy: 7.726 bits -Quantized entropy: 5.752 bits 

由 于 信息 量 与 粹 成 正比 ， 我 们 现在 确认 24 个 量化 向 量 (具有 2 x 2 个 方块 ) 能够 解释 
大 约 74% 的 红色 通道 原始 和 〈( 即 使 3 个 通道 不 是 独立 的 ， 也 可 以 通过 3 个 焙 求 和 得 到 总 人 
的 粗略 近似 值 )。 该 方法 能 有 效 地 在 压缩 强度 与 最 终结 果 质 量 之 间 找 到 平衡 点 。 
2.8 总 结 

在 本 章 中 ， 我 们 从 相似 性 的 概念 以 及 如 何 度量 相似 性 出 发 ， 阐 述 了 聚 类 分 析 的 基本 概 














念 。 我 们 讨论 了 


影响 性 能 。 接 下 来 有 两 个 主题 ， 一 个 是 关于 KNN 上 


量 下 找到 最 相似 的 样本 ， 另 一 种 是 
来 查找 样本 《例如 图 像 ) 或 数据 集 的 有 损 表 示 的 方法 。 





来 在 给 定 的 查询 应 
































K-means 算法 及 其 优化 变 体 K-meanst++， 并 分 析 了 威斯康星 州 乳腺 癌 数 所 
集 。 然 后 ， 我 们 讨论 了 最 重要 的 评估 指标 〈 无 论 是 否 了 解 基本 事实 )， 并 了 解 了 哪些 因素 会 
法 ， 可 以 用 














的 ， 这 是 一 利 
































关 了 

















VQ 的 ， 


的 


























这 是 一 种 利 

















j 聚 类 算法 





己 


十 














在 下 一 章 ， 


凸 问题 。 





2.9 问题 


1. 如 果 两 个 样本 有 等 于 10 的 闵可夫 


离 吗 ? 
2. 对 KK-me 





3. 对 天 -me 


4. 聚 类 应 月 


， 我 们 将 介绍 一 些 非常 重要 的 
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级 聚 类 算法 ， 展 示 它 们 如 何 轻松 地 解决 非 









































斯 基 距 离 (p=5),， 那么 你 能 说 出 它们 的 曼哈顿 距 














ans 收敛 速度 产生 负面 影响 的 主要 因素 是 数据 集 的 维 数 。 正 确 吗 ? 





ans 性 能 产生 积极 影响 的 最 习 






































程序 的 同 质 性 分 数 等 于 0.99。 这 意味 着 什么 ? 








5. 调整 后 的 兰 德 分 数 等 
题 5， 不 同 数 量 的 聚 类 能 产 4 


6. 考虑 问 






































六 -0.5 意味 着 什么 ? 
E 更 好 的 分 数 吗 ? 








0 





要 的 因素 之 一 是 聚 类 的 凸 性 。 正 确 吗 ? 


7. 基于 KNN 的 应 用 程序 平均 每 分 钟 需要 100 个 5-NN 基本 查询 。 每 分 钟 执行 2 个 50-NN 
查询 (每 个 查询 需要 4 秒 ， 叶 子 大 小 =25)， 然 后 立即 执行 2 秒 的 阻塞 任务 。 假 设 没 有 其 他 





延迟 ， 叶 子 大 小 
8. 由 于 bal 























等 于 50 时 ， 每 分 钟 可 以 执行 多 少 次 基本 查询 ? 
l-tree 结构 存在 维 数 灾难 ， 所 以 不 适合 对 高 维 数据 进行 管理 。 正 确 
9. 一 个 从 3 个 二 维 高 斯 分 布 中 采样 1000 个 村 







































































吗 ? 


本 的 数据 集 : MI-1.0, 0.0], diag[0.8, 0.2])， 








MI[0.0, 5.0], diag[0.1, 0.1]) 和 N([ 一 0.8, 0.0], diag[0.6, 0.3])。 哪 一 个 最 有 可 能 是 聚 类 上 


10. 是 否 可 








以 用 VQ 来 压缩 文本 文件 








射 在 [0.0, 1.0] 范 围 内 ， 将 文本 拆 分 为 标记 ， 


( 














9 数量 ? 












































转换 为 一 个 浮 点 序列 ) ? 





例如 建立 一 个 字典 ， 其 中 10000 个 单词 统一 映 
并 将 


U 30 
恬 哆 间 冉 因 各 痢 





在 本 章 中 , 我 们 将 继续 探索 可 用 于 非 凸 任务 (例如 -means 无 法 同时 获取 内 聚 和 分 离 ， 
典型 的 示例 是 交错 的 几何 结构 ) 的 更 加 复杂 的 聚 类 算法 。 我 们 还 将 演示 如 何 将 基于 密度 的 
算法 应 用 于 复杂 数据 集 ， 以 及 如 何 根据 所 需 结 果 正 确 选 择 超 参数 和 评估 性 能 。 通 过 这 种 方 
式 ， 数 据 科 学 家 可 以 在 面 对 不 同类 型 的 问题 时 ， 排 除 价值 较 低 的 解决 方案 ， 而 只 专注 于 最 
有 和 希望 的 解决 方案 。 

本 章 将 着 重 讨 论 以 下 主题 。 


\ 放 了 洒 
。 谱 聚 类 。 












































































































































。 均值 漂移 。 





。 基于 密度 的 噪声 应 用 空间 聚 类 (Density-based Spatial Clustering of Applications 
with Noise，DBSCAN )。 


e 其 他 评估 指标 : Calinski-Harabasz 分 数 和 聚 类 不 稳定 性 。 
e K-medoids。 
。 联机 了 肾 类 (Mini-batch K-means 以 及 使 用 层次 结构 的 平衡 迭代 减少 和 聚 类 (Balanced 


Iterative Reducing and Clustering using Hierarchies, BIRCH)). 


3.1 技术 要 求 


本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+ 《强烈 推荐 Anaconda 发 行 版 )。 
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m SciPy 0.19+。 

@ NumPy 1.10+。 

m SCikit-learn 0.20+。 

m pandas 0.22+。 

m Matplotlib 2.0+。 

m seaborn 0.9+。 
数据 集 可 以 通过 UCI 数据 集 获得 ， 除 了 在 加 载 阶段 添加 列 名 外 ， 不 需要 任何 预 处 理 。 
示例 代码 可 在 本 书 配套 的 代码 包 获 得 。 










































































可 以 管理 非 凸 秘 的 最 常见 的 一 种 算法 是 谱 聚 类 。 其 主要 思想 是 将 数据 集 卫 投影 到 可 以 

通过 超 球 体 捕 获 聚 类 的 空间 (例如 使 用 K-means)。 用 不 同 的 方式 都 可 以 实现 这 一 结果 ,但 

是 由 于 算法 的 目标 是 去 除 通用 形状 区 域 的 凹陷 ， 第 一 步 始终 是 用 图 形 G = {VE} 来 表示 数 

据 集 卫 ， 其 中 顶点 Vs 对 和 加 权 边 表示 与 每 对 样 

本 xi, x (xi, SEX) 通过 参数 (wj 宇 0) 的 接近 度 。 Wol 

E 成 的 图 形 可 以 是 完整 的 (全 连接 的 )， 也 可 以 

是 仅 在 某 些 样本 对 〈 即 无 权重 的 设置 为 0) 之 间 

具有 边 。 部 分 图 形 示例 如 图 3-1 所 示 。 Wo2 

有 两 种 主要 策略 可 用 于 确定 权重 wy: KNN 和 

径 向 基 函 数 (Radial Basis Function，RBF)。 第 
个 就 是 在 第 2 章 讨 论 的 算法 。 考 虑 到 大 个 邻 域 ， Ww,3 

数据 集 表示 为 ball-tree 或 者 kd-tree， 并 且 对 于 每 

个 样本 x;， 计 算 KNNGG) 集 合 。 此 时 ， 给 定 另 一 个 

样本 xx， 权重 计算 如 下 : 
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飞 3 



































图 3-1 图 形 示例 : 点 xo 是 唯 连接 到 xl 的 点 





























fl eANN(E) 
” |0 ”其 他 
在 这 种 情况 下 ， 图 像 并 不 包含 实际 距离 的 任何 信息 。 因 此 ， 考 虑 到 在 KNN 中 使 用 的 同 
样 的 距离 函数 d(-)， 最 好 将 w 表示 为 : 
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faG 元 ) ekNNG) 
wo 其 他 
该 方法 简单 并 且 很 可 靠 , 但 生成 的 图 像 并 不 是 完全 连接 的 。 通 
实现 完全 连接 ， 定 义 如 下 ; 



































_ rls- 
Ww =€ 





过 这 种 方式 ， 所 有 样本 对 都 会 根据 距离 自动 加 权 。 由 于 RBF 是 高 斯 


















































过 采用 RBF 可 以 轻易 地 


| 线 ， 在 xi=x 


时 等 于 ] 且 与 平方 距离 dQxi, ww) 表示 为 差 值 的 范 数 ) 成 比例 下 降 。 参 数 y 确定 半 钟 形 曲线 
因此 ，y < 1 表示 对 距离 















































的 振幅 (通常 默认 值 是 y= 1)。 当 y<1 时 ,振幅 增 大 ， 反 之 亦 然 。 
的 灵敏 度 较 低 ， 而 当 y> 1 时 ，RBF 下 降 得 更 快 ， 如 图 3-2 所 示 。 


























Y=0.1 
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“ao 0 盐 do 0,X 

















当 y=0.1 时 , x=1 (相对 于 0.0) 的 加 权 约 为 0.9; 当 y= 1.0 时 ， 

















4 6 
A(0.0,x) 


图 3-2 二 维 RBF 作为 ?= 0.1、1.0 和 5.0 时， 计算 x 和 0 之 间 的 距离 的 函数 


该 值 约 为 0.5; 当 y =5.0 





























时 ， 该 值 几乎 为 零 。 因 此 ， 在 调整 谱 罕 类 模型 时 ， 考 虑 ) 的 不 同 值 并 选择 产生 最 佳 性 能 的 值 
是 非常 重要 的 (例如 使 用 第 2 章 中 讨论 的 标准 进行 评估 )。 一 旦 创建 了 图 形 ， 就 可 以 使 用 对 






























































称 关 联 和 矩阵 WE{wy} 来 表示 。 对 于 KNN 而 言 ， 克 通常 是 稀 琉 的 ， 可 以 使 用 专 有 库 进行 有 效 的 





存储 和 操作 。 相 反 ， 对 于 RBF 而 言 ， 它 总 是 密集 的 ， 如 果 XE 多 ， 则 需要 存储 和 Y 的 值 。 

不 难 证 明 ， 我 们 迄今 分 析 的 程序 相当 于 将 天 分 割 为 多 个 内 聚 区 域 。 事 实 上 ， 让 我 们 
其 中 每 对 顶点 xo, xpEC: 
属于 C; 的 顶点 相连 接 的 
民选 。 从 图 形 中 提取 的 
























































虑 一 个 通过 KNN 关联 矩阵 获取 图 形 的 例子 。 连 通 分 量 C; 是 子 图 ， 
过 属于 C; 顶点 的 路 径 连 接 ， 并 且 没 有 将 任何 属于 C; 的 顶点 同 不 
















































































连通 分 量 示例 ， 如 图 3-3 所 示 。 


通 
边 。 换 句 话 说， 连通 分 量 是 内 聚 的 子 集 CEC， 表 示 聚 类 选择 的 最 佳 
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在 原始 空间 中 ， 点 x0。、xz 和 x 通过 xi 连接 到 zw、xw 和 xg。 这 可 以 表示 非常 简单 的 非 
凸 几何 结构 ， 如 半月 形 。 Ee 在 这 种 情况 下 ， 凸 性 假设 对 于 最 佳 分 离 不 再 是 必要 的 ， 





























因为 正如 我 们 将 要 看 到 的 ， 这 些 分 量 被 提取 并 投影 到 具有 平坦 几何 形状 的 子 空间 (可 以 轻 
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易 通 过 诸如 K-means 算法 管理 )。 





xX 





当 使 用 KNN 时 ， 这 个 


























图 3-3 ”从 图 形 中 提取 的 连通 分 量 示 例 
过 程 更 为 明显 。 但 一 般 地 ， 我 们 可 以 说 当 区 域 间 距离 (例如 两 







































































个 最 近 点 之 间 的 距离 ) 与 平均 的 区 域 间 距离 相当 时 ， 可 以 将 两 者 合并 。Shi 和 Malik 已 经 




















提出 了 解决 该 问题 的 最 常 











Machine Intelligence 的 论文 














切割 。 整个 证 明 超 出 了 本 书 的 范围 ) 























方法 之 一 《在 期 刊 JEEE Transactions on Pattern Analysis and 


Normalized Cuts and Image Segmentation 中 )， 它 被 称 为 标准 化 
日 我 们 可 以 讨论 主要 概念 。 给 定 一 个 图 形 ， 可 以 构建 
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规范 化 图 形 的 拉 普 拉 斯 算 子 Laplacian 算 子 )， 定 义 如 下 : 





LL=IT-D"'W, 其 中 D = by "| 
7 








对 角 和 矩 阵 D 称 为 次 数 和 矩阵 ， 每 个 元 素 di; 是 对 应 行 的 权重 之 和 。 上 述 算 子 可 以 证 明 以 下 陈述 。 
。 在 特征 分 解 工 〈 考 虑 到 未 标准 化 的 图 形 的 拉 普 拉 斯 算 子 L,=D-W 并 且 求 解 方 程 

































































Liwv=4Dv， 很 容易 计算 技术 特征 值 和 特征 向 量 ) 后 ， 空 特征 值 总 是 以 多 重 性 存在 。 
I[ 果 G 是 无 向 图 (因此 wj 宇 0Vi,j)， 则 连通 分 量 的 数量 等 于 p( 空 特征 值 的 多 重 性 )。 



































































































































的 )， 则 在 给 定 9;E 





9 的 情况 下 , 向量 ve 多 “被 称 为 9 的 指标 向 量 。 如果 0;E4 则 








DD ]， 否则 | vy? = 0。 











D2 
~ 





» 


征 空间 的 指标 
因此 ， 如 果 数 据 集 是 由 





可 
且 二 




















联 ，Shi 和 Malik 建议 构建 包含 第 一 个 p 特征 向 量 作为 列 的 矩阵 BE 外?， 并 使 用 简单 方 


。 如 果 4E 办 "和 @ 是 4 的 可 数 子 集 ( 即 瑟 是 可 数 子 集 ， 因 为 样本 的 数量 始终 是 有 限 
上 
Vv 
1 











例如 我 们 有 两 个 向 量 a = (1, 0 和 2 = (0, 0) (那么 9= {a, b}), 我 











] 考 虑 4 = {(1,n)， 其 中 neE[1,10]}， 问 量 v= (1,0) 是 一 个 指标 向 量 ， 因 为 aE4 且 b44。 
的 第 一 个 特征 向 量 p (对 应 于 空 特 征 值 ) 是 由 每 个 连通 分 量 C1,C，…,C, 跨越 的 本 












































M 个 xiE 多 "的 样本 组 成 ,并 且 图 形 G 与 关联 矩阵 WX“ 相关 



















































































法 (如 KK-means) 对 行进 行 





聚 类 。 事 实 上 ， 每 行 表示 样本 投影 在 p 维 子 空间 上 ， 其 中 非 凸 
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性 由 可 以 包围 成 规则 球 的 子 区 域 表 示 。 
现在 让 我 们 应 用 谱 绢 类 来 分 离 用 以 下 代码 段 生 成 的 二 维 正弦 数据 集 ; 





import numpy as np 
nb_ samples = 2000 


X0 = np.expangd dims (np.linspace(-2 * np.pi, 2 * np.pi, nb samples), axis=1) 
Y0 = -2.0 -np.cos(2.0 * XxX0) + np.random.uniform(0.0, 2.0, 
size=(nb samples, 1)) 


Xl1 = np.expand dims (np.linspace(-2 * np.pi, 2 * np.pi, nb samples), axis=1) 
Yl = 2.0 -np.cos(2.0 * X0) + np.random.uniform(0.0, 2.0, size=(nb samples, 1)) 


data 0 = np.concatenate ([X0, Y0], axis=1) 


data 1 = np.concatenate ([X1, Y1], axis=1) 
data = np.concatenate([data 0, data 1], axis=0) 


谱 聚 类 示例 的 正弦 数据 集 如 图 3-4 所 示 。 


X1 





图 3-4 ” 谱 聚 类 示例 的 正弦 数据 集 


我 们 没有 说 明 任 何事 实 真相 , 我们 的 目标 是 分 离 两 个 正弦 曲线 ( 非 凸 的 )。 检查 捕 获 正 
弦 波 的 球 是 否 也 包含 属于 其 他 正弦 子 集 的 许多 样本 是 很 容易 的 。 为 了 显示 单纯 的 K-means 
与 谱 聚 类 (scikit-learn 实现 了 Shi-Malik 算法 ， 然 后 是 K-means 聚 类 ) 之 间 的 差异 ， 我 们 将 
训练 两 个 模型 ， 后 者 使 用 y = 2.0 (gamma 参数 ) 的 RBF (affinity 参数 )。 当 然 ， 我 建议 大 
家 也 测试 其 他 值 以 及 KNN 的 亲和力 。 基 于 RBF 的 解决 方案 显示 在 以 下 代码 段 中 : 
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from sklearn.cluster import SpectralClustering KMeans 
km = KMeans (n clusters=2, random _ state=1000) 
sc = SpectralClustering (n_ clusters=2, affinity='rbf', gamma=2.0, 


random state=1000) 


Y pred km = km.fit predict (data) 
Y pred sc = sc.fit predict (data) 


结果 如 图 3-5 所 示 。 


Dataset Spectral Clustering 





; 有 
这 曙 4 此 
0 了 
着 二 
Son Mu | 
-6 二 2 0 2 4 6 











图 3-5 原始 数据 集 ( 左 )， 谱 聚 类 结果 (中 ) 和 K-means 结果 ( 右 ) 

正如 你 所 见 ，K-means 治 x 轴 用 两 个 球 对 数据 集 进 行 分 割 ， 而 谱 聚 类 则 成 功 且 正确 地 
分 离 了 两 个 正弦 曲线 。 无 论 何 时 聚 类 的 数量 以 及 数据 集 蕊 的 维 数 都 不 是 太 大 时 《在 此 情况 
下 ， 拉 普 拉 斯 算 子 的 特征 分 解 可 能 变 得 十 分 晶 贵 )， 该 算法 是 非常 强大 的 。 此 外 ， 由 于 该 算 
法 是 基于 图 形 切 割 过 程 的 ， 因 此 很 适合 聚 类 数量 均匀 的 时 候 。 


3.3 均值 漂移 




































































让 我 们 考虑 从 多 变量 数据 生成 过 程 pu 中 提取 的 数据 集 Xe ”*”(M 个 入 维 样本 )。 
让 用 于 聚 类 问题 的 均值 漂移 算法 的 目标 是 查找 puu 的 最 大 区 域 ， 并 将 周围 区 域 中 包含 的 样 
本 关联 到 同一 个 聚 类 。 由 于 pu 是 概率 密度 函数 (Probability Density Function， 了 PDF )， 
因此 可 以 将 其 表示 为 常规 PDF〔〈 例 如 高 斯 ) 的 总 和 ， 其 特征 在 于 具有 一 小 部 分 的 参数 ， 如 
均值 和 方差 。 这 样 ， 我 们 可 以 假设 样本 由 具有 最 高 概率 的 PDF 生成 。 我 们 将 在 第 5 章 和 第 
6 章 中 讨论 此 过 程 。 出 于 我 们 的 目的 ， 将 问题 重 构 为 迭代 过 程 是 会 有 帮助 的 ， 该 过 程 会 更 
新 平均 向 量 〈 质 心 ) 的 位 置 直 到 它们 达到 最 大 值 。 当 质心 达到 其 最 终 位 置 时 ， 使 用 标准 近 
邻 函数 将 样本 分 配给 每 个 聚 类 。 
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该 信 
是 基于 Parzen 窗口 (Parzen Windows) 的 使 月 





函数 A 


论文 On Esti 






































法 的 第 一 步 是 确定 近似 paww 的 合适 方法 。 一 种 经 典 的 方法 (将 在 第 6 章 中 讨论 ) 
有 。 现 在 ， 可 以 说 Parzen 窗口 是 一 个 非 负 核 
)， 其 特征 是 一 个 称 为 带宽 (Bandwidth)〉 的 参数 《有 关 进 一 步 的 细节 ， 请 查看 原始 
mation of a Probability Density Function and Mode)。 顾 名 思 义 ， 这 一 参数 的 作用 













































































是 扩大 或 限制 Parzen 窗口 接近 其 最 大 值 区 域 。 与 高 斯 分 布 进行 类 比 ， 带 宽 与 方差 的 作用 相 

















同 。 因 此 ， 小 的 带宽 将 产生 均值 周围 值 非常 高 的 函数 ， 而 较 大 的 值 则 与 更 平坦 的 函数 相关 


联 。 不 难 理解 ， 在 这 种 特殊 情况 下 ， 聚 类 的 数量 是 1 
大 多 数 实现 〈 如 scikit-learn) 仅 使 用 一 个 参数 并 计 





此 原因 ， 




































































带宽 和 其 他 方式 隐 式 地 决定 的 。 出 于 
另 一 个 参数 。 考 虑 到 此 算法 

















知 站 











设计 用 于 概率 分 布 ， 自 然 的 选择 是 指定 所 需 的 带宽 或 者 实现 
来 比 施加 特定 数量 的 聚 类 更 复杂 ， 但 是 在 许多 实际 情 

































































知 时 ， 更 加 容易 测试 不 同 带宽 的 结果 。 
均值 漂移 最 常见 的 选择 是 使 用 个 扁平 内 核 的 总 和 (n 是 质心 数 ) 近似 数据 生成 过 程 ; 


因 ] 





可 
ZI 
CC 


K(*) 是 平方 距离 (如 标准 球 ) 和 带宽 有 的 函数 。 有 太 多 的 候选 函数 可 以 被 使 用 ， 但 是 
斯 内 核 (RBF)， 其 中 天 起 到 了 方差 的 作用 ， 其 得 到 的 近似 值 非常 平滑 ， 





最 明显 的 就 是 高 


























n sp 1 
Pun ~ 2 K(x) where K,(W) = 
2=1 





























最 佳 带宽 的 检测 。 此 过 程 看 起 
况 下 ， 特 别 是 当 少 部 分 的 基本 事实 已 














Ixl 上 Er 


其 他 
























































比 ， 在 收敛 后 ， 每 个 样本 由 最 接近 的 质心 表示 。 
\ 表 真实 过 程 的 分 段 函数 。 








不 笠 的 是 ， 这 种 近似 导致 了 一 个 不 太 











因此 ， 最 好 使 用 基于 相同 底层 内 核 的 平滑 Parzen 窗口 K(*): 





El 
Paata Si Sx h? 
和 



































n 个 峰值 对 应 于 质心 “ 即 均 值 )。 一 旦 定义 函数 后 ， 

















位 置 。 




















给 定 质心 外 


球 Bi)， 








并 且 与 8 





























相应 的 均值 漂移 矢量 定义 为 : 

















ba eB, ct OG 

















就 可 以 计算 质心 xu x2,…, xn 的 最 佳 


I 近邻 函数 (为 简单 起 见 ， 我 们 假定 使 用 半径 为 h 且 K(x) 了 0vxEB, 的 标准 


—X)x, | 





而 (元 ) = 






























































Di 一 石 ) 


正如 可 以 看 到 的 , m(*) 是 使 用 K(*) 加 权 的 所 有 邻近 样本 的 均值 。 显然 由 于 K(*) 是 对 称 的 
E 离 相关 的 ， 当 x; 达 到 真实 均值 时 m(*) 将 趋 于 稳定 。 现 在 应 该 更 清楚 的 是 ， 小 的 值 

































































迫使 算法 引入 更 多 的 质心 以 便 将 所 有 样本 分 配给 聚 类 。 相 反 ， 大 的 带宽 可 能 导致 单个 聚 类 


的 最 终 配 置 。 和 迭代 过 程 以 初始 化 的 质心 猜测 x zx， 



































,2 开始 ， 并 使 用 规则 校正 向 量 : 
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和 





前 面 的 公式 很 简单 ， 在 每 个 步 又， 质心 移动 〈 位 移 ) 更 接近 m(*)。 这 样 ， 由 于 m(*) 与 
相对 于 xi 计算 的 邻 域 密度 成 比例 ， 当 xi 达 到 概率 最 大 的 位 置 时 ，m(*) 一 mpnat， 不 再 需要 更 
新 。 当 然 ， 收 敛 速度 受到 样本 数量 的 影响 很 大 。 对 于 非常 大 的 数据 集 ， 该 过 程 会 因为 每 个 
均值 漂移 向 量 所 需 邻 域 的 预先 计算 而 变 得 非常 缓慢 。 男 一 方面 ， 当 聚 类 标准 由 数据 密度 定 
义 时 ， 该 算法 非常 有 用 。 

例如 现在 让 我 们 考虑 一 个 合成 数据 集 ， 其 中 包含 3 个 具有 对 角 协 方差 的 多 元 高 斯 生成 
的 500 个 三 维 样本 ， 如 下 所 示 : 


import numpy as np 






































nb_ samples = 500 


data 1 = np.random.multivariate normal([-2.0, 0.0], np.diag([1.0, 0.5]), 
size= (nb samples,)) 

data 2 = np.random.multivariate normal ([0.0, 2.0], np.diag([1.5, 1.5]), 
size=(nb samples,)) 

data 3 = np.random.multivariate normal ([2.0, 0.0], np.diag([0.5, 1.0]), 
size=(nb_ samples,)) 





data = np.concatenate([data 1, data 2, data 3], axis=0) 


平均 位 移 算法 示例 的 样本 数据 集 如 图 3-6 所 示 。 


6 . 


X1 

















图 3-6 平移 位 移 算法 示例 的 样本 数据 集 





66 第 3 章 高 级 聚 类 





te 


在 这 种 情况 下 ， 我 们 知道 
的 高 斯 彼此 非常 接近 ， 一 些 外 部 
观察 到 3 





























基本 事实 ， 但 是 需要 测试 不 同 的 
区 域 可 以 识别 为 聚 类 。 为 了 习 
F 均 方差 (考虑 不 对 称 性 ) 是 1。 因 此 ， 我 们 可 以 考虑 值 hn=0.9、1.0、1.2 和 1.5。 


者 


带宽 并 比较 结果 。 由 于 生成 
点 研究 最 优 参数 ， 我 们 可 以 








此 时 ， 我 们 可 以 实例 化 scikit-learn 的 类 MeanShift， 通 过 参数 bandwidth 传递 有 hh 值 ， 如 下 所 示 : 


from sklearn.cluster import MeanShift 


mss 


[] 
Y preds = 
bandwidtns 


[] 


= [O09 ad 于 二 台地 :Lad 


for b in bandwidths: 
ms = MeanShift (bandwidth=b) 


Y preds.append (ms.fit predict (data)) 
mss.append (ms) 





在 密度 分 析 后 ， 训 练 过 程 会 自动 地 选择 质心 的 数量 和 初始 位 置 。 不 幸 的 是 ， 这 个 数字 
通常 大 于 最 终 数 字 (因为 局 部 密度 差异 )。 因此 该 算法 会 优化 所 有 的 质心 , 但 是 在 完成 之 前 ， 








会 执行 合并 过 程 以 消除 所 有 太 靠 近 其 他 质心 的 质心 ( 即 重复 的 质心 )。 











数 bin_seeding， 可 根据 带 
方式 ， 可 以 减少 合理 精度 下 损失 的 候选 者 数量 。 


4 个 训练 过 程 结束 时 的 聚 类 结果 ， 如 图 3-7 所 示 。 


Bandwidth: 1.0 














Bandwidth: 0.9 Bandwidth: 1.2 


图 3-7 ”针对 不 同 带宽 的 均值 漂移 聚 类 结 
的 微小 差异 可 能 导致 不 同 数量 的 聚 类 。 








HH EF 
季风 





如 你 所 见 ， 











scikit-learn 提供 了 参 


宽 对 样本 空间 进行 离散 化 (分 箱 )， 从 而 加 速 这 一 研究 。 通 过 这 种 





Bandwidth: 1.5 


果 
在 我 们 的 例子 中 ， 最 优 值 是 


有 =1.2， 这 产生 了 一 个 结果 ， 即 确定 了 3 个 不 同 的 区 域 (加 上 包含 潜在 异常 值 的 额外 聚 类 )。 











最 大 聚 类 的 质心 大 致 对 应 于 实际 均值 ， 但 是 聚 类 的 形状 不 像 人 








陷 ， 可 以 通过 采 月 





F 何 的 高 斯 分 布 ， 这 是 一 个 缺 


日 其 他 方法 来 解决 (在 第 5 章 中 讨论 )。 事 实 上 均值 漂移 与 局 部 近邻 一 起 使 














用 ， 并 且 不 假定 puun 属于 特定 分 布 。 




















因此 ， 最 终 的 结果 是 将 数据 准确 地 分 割 成 高 密度 区 域 
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(注意 最 大 分 离 不 再 是 必需 的 ), 也 可 以 从 多 个 标准 分 布 的 车 加 中 派生 出 来 。 在 没有 任何 先 
验 假设 的 情况 下 ， 我 们 不 能 指望 结果 是 非常 规律 的 ， 但 是 将 该 算法 与 VQ 进行 比较 ， 很 
容易 注意 到 分 配 是 基于 找到 每 个 密集 斑点 的 最 佳 代表 的 想法 。 因此 ,由 具有 低 概率 的 高 斯 
NM ) 生 成 的 一 些 点 被 分 配给 不 同 的 聚 类 ， 高 斯 的 质心 比 上 更 具 代 表 性 〈 就 距离 而 言 )。 


































































































3.4 DBSCAN 

















DBSCAN 是 另 一 种 基于 数据 集 密度 估计 的 聚 类 算法 。 然 而 与 均值 漂移 相反 ，DBSCAN 
没有 直接 参考 数据 生成 过 程 。 实 际 上 ， 在 这 种 情况 下 ， 该 过 程 通过 自 下 而 上 的 分 析 建 立 样本 
间 的 关系 ,从 丈 由 低 密度 区 域 分 隔 的 高 密度 区 域 (斑点 ) 组 成 的 一 般 假 设 开始 。 因 此 DBSCAN 
不 仅 需要 最 大 分 离 约束 ， 而 且 还 强制 执行 此 类 条 件 以 确定 聚 类 的 边界 。 此 外 ， 该 算法 不 允许 
指定 所 需 的 聚 类 数量 ， 这 是 也 结构 的 结果 ， 但 是 与 均值 漂移 类 似 ， 可 以 控制 过 程 的 粒度 。 

特别 地 ，DBSCAN 基于 两 个 基本 参数 : s 表示 以 样本 x 为 中 心 的 球 Ba) 的 半径 ，zmin 
是 必须 包含 在 BQ) 中 的 最 小 样本 数 ， 以 便 将 x; 视 为 核心 点 ( 即 可 以 被 认定 为 诊 类 的 实际 成 
员 的 点 )。 从 形式 上 讲 ， 给 定 函 数 NM(*) 计 算 集合 中 包含 的 样本 数量 ， 如 果 符 合 以 下 情况 ， 则 
样本 xiE 称 为 核心 点 : 












































































































































N(B, (五 )) nm 








所 有 xyEB00) 的 点 被 定义 为 从 x; 直接 密度 可 达 (Directly Density-Reachable)。 这 种 条 件 
是 点 之 间 的 最 强 关 系 ， 因 为 它们 都 属于 以 x; 为 中 心 的 同一 个 球 ， 并 且 BW) 中 包含 的 样本 总 数 
足够 大 ， 足 以 将 邻 域 视 为 密集 子 区 域 。 此 外 ， 如 果 存 在 一 个 序列 zw 一 zl 一 … 一 5， 其 中 xl 被 
定义 为 从 x; 直接 密度 可 达 〔 对 于 所 有 顺序 对 )，x%j 被 定义 为 从 x 密度 可 达 (Density-Reachable)。 
这 个 概念 非常 直观 ， 如 图 3-8 所 示 。 









































Xo 











3-8 如 果 Nmin™— 4， 则 点 X2 从 Xo 密度 可 达 
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如 果 我 们 设置 样本 的 最 小 数 等 于 4，xo、x 和 加 都 是 核心 点 , xi 从 xo 是 直接 密度 可 达 ， 

















x2 从 xi 是 直接 密度 可 达 。 
重 芭 的 密集 球 (N(*) 三 nm)， 从 xo 开始 到 x; 结束。 我 们 可 以 通过 增加 进一步 的 定义 将 此 概 

















因此 ，x 是 从 xo 密度 可 达 。 换 句 话说 ， 这 意味 着 可 以 定义 一 系列 


























念 扩展 到 属于 球 的 所 有 其 他 点 : 给 定点 xe， 如 果 x; 入 是 从 x 密度 可 达 的 ， 则 点 x 和 x 




















是 密度 连接 (Density-Connected) 的 。 
请 务必 了 解 这 样 的 条 件 比 密度 可 达 性 要 弱 ， 因 为 为 了 保证 密集 链 ， 有 必要 考虑 第 三 个 





























点 ， 它 表示 两 个 密集 子 








区 域 之 间 的 连接 器 。 事 实 上 ， 可 能 有 两 个 密度 连接 点 ac 和 4b， 其 中 4a 


























不 能 从 4。 密度 可 达 《〈 反 之 亦 然 )。 只 要 满足 最 小 样本 数量 仅 在 一 个 方向 上 移动 〈 即 属于 球 的 


样本 不 均匀 分 布 ， 但 倾向 于 在 小 的 超 体积 中 累积 )， 这 种 情况 就 会 发 生 。 















































因此 ， 举 例 来 说 ， 如 果 NMq)> nmm 且 Na)<<Na)， 则 aai 的 转换 可 以 允许 构建 也 包 
含 ql 的 球 BO 《以 及 许多 其 他 点 )。 然 而 ， 在 逆转 换 ql 一 a 中 ，Bs(a1) 不 能 足够 密集 以 建 并 








直接 密度 可 达 的 条 件 。 














因此 ， 在 两 个 方向 中 的 一 个 方向 上 移动 时 ， 我 们 可 以 破坏 较 长 的 序列 ， 从 而 导致 密度 
可 达 性 的 损失 。 现 在 应 该 更 清楚 的 是 ， 在 六 和 总 两 点 之 间 的 密度 连接 允许 我 们 避免 这 个 问 
题 的 前 提 是 要 有 另 一 个 点 可 以 同时 到 达 x 入。 


所 有 xi;，xjEX 的 密度 连接 点 对 (x;，xj) 将 被 分 配给 相同 的 聚 类 C,。 此 外 ， 如 果 xxE 








Ct， 所 有 从 x 密度 可 达 的 点 xj Ee 对 也 将 属于 同一 个 聚 类 。 从 























E 何 其 他 点 x;E 外 不 能 密度 可 达 








的 点 被 定义 为 噪声 点 。 因 此 与 其 他 算法 相反 ，DBSCAN 输出 个 聚 类 以 及 包含 所 有 噪声 点 
的 附加 集合 〈 不 一 定 被 视 为 异常 值 ， 而 是 不 属于 任何 密集 子 区 域 的 点 )。 当 然 ， 由 于 噪声 点 
没有 标签 ， 它 们 的 数量 应 该 很 低 ， 因 此 用 双重 目标 调整 参数 e 和 mr 是 非常 重要 的 : 最 大 
化 内 聚 和 分 离 ， 以 避免 过 多 的 点 被 标记 为 噪声 。 没 有 标准 规则 来 实现 这 样 的 目标 ， 因 此 我 




















建议 在 做 出 最 终 决 定 前 测试 不 同 的 值 。 


































































































最 后 , 重要 的 是 记 住 DBSCAN 可 以 处 理 非 凸 几何 ， 并 且 与 均值 漂移 相反 ,， 它 假设 存在 



































被 低 密度 区 域 包含 的 高 密度 区 域 。 此 外 ,其 复杂 度 与 采用 的 KNN 方法 ( 烘 力 搜索 , ball-tree 
或 kd-tree) 严格 相关 。 通 常 当 数据 集 不 是 太 大 时 ， 平 均 性 能 为 O(NlogN), 但 是 当 WN 非常 大 


时 ， 复 杂 度 可 能 会 倾向 O0V?)。 另 一 个 需要 记 住 的 重要 因素 是 样本 的 维 数 。 正 如 我 们 已 经 讨 
论 过 的 ， 高 维度 可 能 会 降低 两 点 的 可 辨识 度 ， 从 而 对 KNN 方法 的 性 能 产生 负面 影响 。 因 
此 当 维 度 非常 高 时 ， 应 避免 (或 者 至 少 要 仔细 分 析 ) 用 DBSCAN， 因 为 得 到 的 聚 类 无 法 有 

















效 地 表示 实际 密集 





区 域 。 












































































































































在 展示 具体 例子 之 前 ， 引 入 一 种 在 基本 事实 未 知 时 采用 的 进一步 评估 方法 是 用 


助 的 。 








3.4 DBSCAN 69 


3.4.1 ”Calinski-Harabasz 分 数 















































假设 聚 类 算法 已 经 应 用 于 包含 M 样本 的 数据 集合 人 ， 以 便 将 其 分 割 成 由 质心 wvi = 1,…nc 
表示 的 个 聚 类 C;。 我 们 可 以 定义 聚 类 内 色散 (Within-Cluster Dispersion，WCD ) 如 下 : 


























WCD(K) = Tr(X,), 其 中 多 ,= > (TAF A 
如 果 x; 是 N 维 列 向 量 , 则 天 E ”不 难 理解 CD( 有 是 对 聚 类 的 伪 方 差 全 局 信息 进 
行 编码 。 如 果 满 足 最 大 内 聚 条 件 ， 我 们 期 望 有 限 的 分 布 在 质心 周围 。 另 一 方面 ，JrCD( 
[至 会 受到 包含 异常 的 单个 聚 类 的 负面 影响 。 因 此 ， 我 们 的 目标 是 在 每 种 情况 下 最 小 化 
WCD( 有 。 类 似 地 ， 我 们 可 以 将 聚 类 间 色 散 (Between-Clusters Dispersion，BCD ) 定义 为 : 































































































BCDUD =77(B,), 其 中 有 = DN(C)(R, -D1 7D 





在 前 面 的 公式 中 ，MC) 是 分 配给 聚 类 Ci 的 元 素数 量 , 4 是 整个 数据 集 的 全 局 质心 。 考 
虑 到 最 大 分 离 原 则 ， 我 们 希望 密集 区 域 远离 全 局 质心 。BCD( 有 恰好 表达 了 这 个 原则 ， 因 此 
需要 最 大 化 它 以 获取 更 好 的 性 能 。 

Calinski-Harabasz 分 数 定义 为 : 


























CH (X,Y,,) 4 S00 

: £1 TCD 
由 于 不 考虑 质心 计算 是 聚 类 算法 的 一 部 分 ， 因 此 Calinski-Harabasz 分 数 引 入 了 对 预测 
标签 的 显 式 依赖 性 。 分 数 没 有 绝对 的 意义 ， 但 是 有 必要 比较 不 同 的 值 以 便 了 解 哪 种 解决 
方案 更 好 。 显 然 ，CH4(*) 越 高 ， 聚 类 性 能 越 好 ， 因 为 这 种 条 件 意 味 着 更 大 的 分 离 和 更 大 的 


内 聚 。 
3.4.2 使 用 DBSCAN 分 析 工 作 数 据 集 中 的 缺勤 率 


工作 缺勤 数据 集 〈 按 照 3.1 节 的 说 明 下 载 ) 由 740 条 记录 组 成 ， 其 中 包含 休假 员工 的 
信息 。 有 20 个 属性 分 别 代表 年 龄 、 服 务 时 间 、 教 育 、 习 惯 、 疾 病 、 违 纪 、 交 通 费 用 、 从 家 
至 办 公 点 距离 ， 等 等 (有 关 字 上 段 的 完整 描述 请 访问 UCI 数据 集 的 Absenteeismtatt+work)。 
我 们 的 目标 是 预 处 理 这 些 数据 并 应 用 DBSCAN， 以 便 发 现 具 有 特定 语义 内 容 的 密集 区 域 。 


第 一 步 按照 如 下 方式 加 载 CSV 文件 (必须 更 改 占 位 符 <data_path> 以 指向 文件 的 实际 
位 置 ): 
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import pandas as pd 


data path = '<data path>\Absenteeism at work.csv' 





df = pd.read csv(data path, sep=';', header=0, index col=0) .fillna(0.0) 
PELNt(dEs CoUnt()) 





代码 段 的 输出 如 下 所 示 : 
Reason for absence 740 
Month of absence 740 
Day of the week 740 
Seasons 740 
Transportation expense 740 
Distance from Residence to Work 740 
Service time 740 
Age 740 
Work load Average/day 740 
Hit target 740 
Disciplinary failure 740 
Education 740 
Son 740 
Social drinker 740 
Social smoker 740 
Pet 740 
Weignt 740 
Height 740 
Body mass index 740 
Absenteeism time in hours 740 





dtype: int64 

















其 中 一 些 功 能 是 分 类 的 , 并 使 用 顺序 整数 进行 编码 (例如 Reason for absence、Month of 
absence 等 )。 由 于 这 些 值 在 没有 精确 的 语义 原因 的 情况 下 会 影响 距离 (例如 Month=12 大 于 
Month=10， 但 这 两 个 月 在 距离 方面 是 等 效 的 )， 我 们 需要 在 接 下 来 的 步骤 前 ， 对 所 有 的 功 
能 进行 独 热 编码 (新 的 特征 将 附加 在 列表 的 末尾 )。 在 下 面 的 代码 片段 中 ， 我 们 使 用 函数 
pandas() 的 方法 get dummies0 来 执行 编码 ， 然 后 删除 原始 列 : 


import pandas as pd 











































































































cdf = pd.get dummies (df, columns=['Reason for absence', 'Month of absence', 





'Day of the week', 'Seasons', 'Disciplinary failure', 'Education', 'Social 
drinker', 'Social smoker']) 


cdf 
the week', 'Seasons', 


drinker', 


cdf.drop(labels=['Reason for absence', 
'Disciplinary failure', 


'Social smoker']) .astype (np.float64) 


'Month of absence', 
'Education', 
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'Day of 
"SOCLal 











独 热 编码 的 结果 通常 会 产生 均值 之 间 


的 差异 ， 因 为 询 


























特征 (例如 年 龄 ) 可 以 具有 更 宽 的 范围 。 
因 














设置 参数 with_std=False 可 以 实现 这 个 步骤 ， 如 下 所 示 : 


from sklearn.preprocessing import StandardScaler 


StandardScaler (with std=False) 
ss.fit transform(cdf) 


ss 
sdf 


F 多 特征 被 限制 为 0 或 1， 而 其 他 
因此 ， 最 好 对 方法 进行 标准 化 (不 要 影 
为 它们 与 现存 信息 成 正比 , 因此 将 其 保持 不 变 是 有 帮助 的 )。 通 过 使 用 StandarScaler 类 并 











响 标 准 差 ， 














此 时 ， 如 往常 一 样 ， 我 们 可 以 使 用 t-SNE 算法 来 减少 数据 集 维度 (通过 n_components=2)， 
并 可 视 化 结构 。 数 据 帧 dff 将 包含 原始 数据 集 和 tSNE 坐标 ， 如 下 所 示 : 





pt 


from sklearn.manifold import TSNE 














tsne TSNE (n_ components=2, 


data tsne 


perpl 
tsne.fit transform(sdf) 


df tsne 
dff pd.concat ([cdf, 











pd.DataFrame (data tsne columns=['x', 
df tsne], axis=1) 


t-SNE 工作 数据 集中 缺勤 情况 的 二 维 表 示 如 图 3-9 所 示 。 








xity=15, random state=1000) 


'y'], index=cdf.index) 
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图 3-9 ft-SNE 工作 数据 集中 缺勤 情况 的 二 维 表示 
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在 考虑 使 用 这 个 结果 之 前 ， 重 要 的 是 重复 t-SNE 以 产生 最 佳 的 低 维 表示 ， 但 是 总 是 需 
要 在 原始 数据 集 上 测试 算法 以 检查 由 t-SNE 识别 的 近邻 是 否 对 应 于 实际 的 聚 类 。 特 别 地 ， 
考虑 到 DBSCAN 的 结构 以 及 t-SNE 的 表示 形式 ，s 值 可 能 是 合理 的 。 但 是 当 移 动 到 更 高 维 
空间 时 ， 球 无 法 再 捕获 相同 样本 。 然 而 ， 前 面 的 图 显示 了 被 空白 空间 包围 的 密集 区 域 的 存 
在 。 不 幸 的 是 ， 密 度 不 太 可 能 是 均匀 的 〈 这 是 DBSCAN 的 建议 之 一 ， 因 为 和 mr 的 值 都 
不 能 改变 )， 但 在 这 种 情况 下 ， 我 们 假设 密度 对 所 有 斑点 是 恒定 日 

为 了 给 我 们 的 目标 找 出 最 佳 配置 ， 我 们 使 用 p=2、p=4、p=8、p=12 的 闵可夫 斯 基 度量 
绘制 了 聚 类 的 数量 、 品 声 点 的 数量 、 轮 廊 分 数 ， 还 使 用 Calinski-Harabasz 分 数 作为 s 的 函 
数 ， 如 图 3-10 所 示 。 


Number of clusters Number of noise points Silhouette score Calinski-Harabasz score 
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图 3-10 评估 指标 作为 s 的 函数 


轮廓 和 Calinski-Harabasz 都 是 基于 聚 类 为 凸 的 假设 〈 例 如 色散 显然 是 一 种 假设 样本 
围绕 质心 的 径 向 分 布 的 度量 )， 因 此 在 非 凸 聚 类 的 情况 下 其 预期 值 通常 较 小 。 然 而 ， 我 
们 希望 最 大 化 两 个 分 数 〈 轮 廊 一 1、Calinski-Harabasz 一 ce )， 同 时 避免 大 量 聚 类 。 考 虑 
到 我 们 的 初始 目标 〈 找 到 具有 特定 特征 集合 的 内 聚 聚 类 )， 我 们 选择 了 s=25 和 p=12 的 
闵可夫 斯 基 度 量 ， 这 产生 了 一 个 合理 数量 的 聚 类 〈13) 和 22 个 噪声 点 。 在 第 2 章 中 我 



















































































们 已 


差异 。 


凸 斑 


致 17 个 聚 类 ) 对 于 中 等 粗 粒 度 分 析 来 说 可 能 是 一 个 很 好 的 权衡 (考虑 到 有 20 个 属性 )。 此 
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经 证 明了 ， 当 p 一 (但 是 在 p>2 时 效果 已 经 可 见 了 ) 时 ， 距 离 趋 向 于 最 大 的 特征 


























因此 ， 这 种 选择 应 始终 通过 语 境 分 析 来 证 明 。 在 这 种 情况 下 ， 我 们 可 以 假设 每 个 〈 非 ) 
点 代表 一 个 由 特定 特征 支配 的 类 别 〈 上 共有 所 有 其 他 特征 的 次 要 贡献 )， 因 此 p=12 导 






























































外 ，s=22.5 与 最 高 Calinski-Harabasz 分 数 129.3 相关 联 ， 并 且 轮 廊 分 数 约 等 于 0.2。 特 别 是 




















后 








个 值 表示 整体 聚 类 是 正确 合理 的 ， 但 可 能 存在 重合 。 由 于 基础 几何 体 非常 可 能 是 非 凸 


























的 ， 


























因此 这 样 的 结果 是 可 以 接受 的 (通常 不 是 在 凸 的 情况 下 )， 同 时 考虑 具有 相应 峰值 的 















































Calinski-Harbasz 分 数 。s 的 较 大 值 产生 高 的 轮 廊 分 数 〈( 小 于 0.23)， 但 所 产生 的 聚 类 数量 和 
Calinski-Harbasz 分 数 都 不 受 配 置 的 影响 。 必 须 明 确 的 是 ， 这 一 选择 尚未 得 到 任何 外 部 证 据 


的 证 
多 珍 


行 解 



















































































实 ， 并 且 必 须 通过 对 结果 的 语义 分 析 进 行 验证 。 如 果 需 要 细 粒 度 的 分 析 ， 那 么 具有 更 
类 数量 和 更 多 噪声 点 的 配置 也 是 可 以 接受 的 〈 因 此 ， 读 者 可 以 使 用 这 些 值 并 对 结果 进 
释 )。 但 是 ， 此 示例 的 最 终 目 标 保持 不 变 : 对 数据 集 进 行 分 段 ， 以 便 每 个 聚 类 包含 特定 
























































































































































《可 能 是 唯一 的 ) 属性 。 
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我 们 可 以 实例 化 DBSCAN 模型 并 使 用 包含 规范 化 特征 的 数组 sdf 对 其 进行 训练 。 配 











地 























是 s=25 (参数 eps) 和 nw = 3 参数 min samples)， 以 及 p=12 的 闵可夫 斯 基 度 





(metric='minkowski' )。 





我 们 现在 可 以 执行 以 下 聚 类 : 


from sklearn.cluster import DBSCAN 
from sklearn.metrics import silhouette score, calinski harabaz score 


ds = DBSCAN (eps=25, min samples=3, metric='minkowski', p=12) 
Y pred = ds.fit predict (sdf) 


print('Number of clusters: {}'.format (np.max(Y pred) + 1)) 
print('Number of noise points: {}'.format (np.suml(Y pred==-1))) 


print('Silhouette Score: {:.3f}'.format (silhouette score(dff, Y pred, 
metric='minkowski', p=12))) 
print('Calinski-Harabaz Score: {:.3f}'.format (calinski harabaz Score (dff, 
Y_pred))) 








由 于 DBSCAN 使 用 标签 -1 标记 噪声 点 ， 代 码 段 的 输出 如 下 : 


Number of clusters: 13 
Number of noise points: 22 
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Silhouette Score: 0.2 
Calinski-Harabaz score: 129.860 











工作 数据 集 缺 勒 的 聚 类 结果 如 图 3-11 所 示 。 
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图 3-11 工作 数据 集 缺 勤 的 聚 类 结果 























正如 你 所 看 见 的 《我 建议 运行 代码 以 获取 更 好 的 视觉 确认 )， 大 多 数 的 隔离 〈 即 使 在 
t-SNE 图 中 没有 内 聚 ) 区 域 已 经 被 成 功 检 测 到 了 ， 并 且 样 本 已 经 分 配给 相同 的 聚 类 。 我 们 
还 可 以 观察 到 两 个 基本 结果 : 噪声 点 《用 十 字 标记 的 ) 在 t-SNE 表示 中 并 没有 被 隔离 ， 并 
目 一 些 聚 类 被 部 分 地 分 开 。 这 不 是 算法 的 失败 ， 而 是 降 维 的 直接 结果 。 在 原始 空间 中 ， 所 
了 的 噪声 点 实际 上 没有 与 其 他 样本 密度 连接 ， 但 它们 可 能 在 t-SNE 图 中 看 起 来 与 某 些 点 重 
登 或 接近 。 然 而 我 们 感 兴趣 的 是 高 密度 和 准 内 聚 非 凸 区 域 ， 幸 运 的 是 ， 它 们 在 二 维 图 中 也 
表现 相关 。 

现在 让 我 们 考虑 两 个 不 同 的 区 域 (为 简单 起 见 , 我 们 将 分 析 在 独 热 编码 后 的 前 10 个 属 
性 )。 第 一 个 是 二 维 区 域 x< -4$， 如 下 所 示 : 



















































































































































































sdff = dff[ (dff.x < -45.0)] 
print (sdff[sdff.columns[0:10]] .describe()) 





对 应 于 x< 一 45 子 数据 集 的 统计 度量 ， 如 表 3-1 所 示 。 
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表 3-1 


He 





对 应 于 xX < -45 子 数据 集 的 统计 度 


Transpo 
rtation 
expense 


Distance 


Residence 
to Work 


Service 
time 


from 


Age Average/ 


day 


Work load 


Hit target 


Son 


Pet 


Weight | Height 





count| 67.0 


67.000000 


67.000000 


67.000000 


67.000000 


67 000000 


67.000000 


67.000000 


67.000000 


67.000000 





mean| 179.0 


50.910448 


17.940299 


38.223881 


251.817418 


95.253731 


0.014925 


0.014925 


88.820896 


170.074627 





std 0.0 


0.733017 


0.488678 


1.832542 | 10.791695 


2.382660 


0.122169 


0.122169 


1.466033 | 0.610847 





min | 179.0 


45.000000 


14.000000 


38.000000 


230.290000 


87.000000 


0.000000 


0.000000 


77.000000 


170.000000 





25% | 179.0 


$1.000000 


18.000000 


38.000000 


241.476000 


93.000000 


0.000000 


0.000000 


89.000000 


170.000000 





Ss0% | 179.0 


$51.000000 


18.000000 


38.000000 


251.818000 


96.000000 


0.000000 


0.000000 


89.000000 


170.000000 





75% | 179.0 


$51.000000 


18.000000 


38.000000 


264.249000 


97.000000 


0.000000 


0.000000 


89.000000 


170.000000 





max | 179.0 








$51.000000 


18.000000 





53.000000 





99.000000 





1.000000 





1.000000 





89.000000 





175.000000 





271.219000 








两 个 因素 可 以 并 
《考虑 到 平均 值 和 标 ;# 
地 到 工作 地 点 的 距离 , 这 有 助 于 我 们 找到 


即 引 起 我 们 的 关注 : 交 


Nt 

















通 














I 





住 差 ， 对 于 


大 多 数 的 检 

















我 们 在 这 个 简 
大 约 40 岁 且 没有 子女 ， 服 务 时 
， 有 标准 化 的 交 


现在 让 我 们 ; 





点 


AAA 








确认 这 ) 











sdff 


要 





的 分 析 中 将 它 


、 


了 > 
聚 类 


除 在 外 。 





门 排 
间 和 





























费 














通 


~ 


& 


的 


用 (例如 一 次 1 
各 这 一 结果 与 -20<x<20 和 y<20 的 区 域 做 对 比 ， 结 果 如 下 : 


dffil (dff“x-.>: 2020) 


费用 《〈 似 





远 
生 付 清 























乎 标 ; 

















(我 请 

















(dff.y > -20.0) 


print (sdff[sdff.columns[0:10]] .describe()) 


对 应 于 -20 <x <20 和 y<20 子 数 


表 3-2 








& 


仁 化 的 是 179) 和 子女 的 数 
本 对 应 为 0)。 我 们 还 要 考虑 服务 时 间 和 从 居住 
语义 标签 。 所 有 其 他 参数 
因此 ， 我 
长 ， 离 办 公 地 点 很 








全 





三 | 
里 





mT 





区 分 性 都 比较 低 ， 
站 可 以 假设 这 样 的 一 个 子 
读者 检 


取 淤 


开关 ， 他 们 
[的 统计 数据 来 














的 汽车 费用 )。 





昌 集 的 统计 度量 如 表 3-2 所 示 。 


(dff.y < 20.0)] 


对 应 于 -20 <x < 20 和 y < 20 子 数据 集 的 统计 度量 


Transport- 
ation 
expense 


Distance 
from 
Residence 
to Work 


Service 
time 


Work load 
Average/ 
day 


Age 


Hit target 


Son 


Pet 


Weight | Height 





countl165.000000 


165.000000 


165.000000 


165.000000|165.000000 


165.000000 


165.000000 


165.000000 


165.000000 


165.000000 





meanl234.575758 


23.212121 |11.818182 


37.436364 |256.334642 


94.309091 


10.987879 


1.436364 


178.842424 


169.987879 





std |8.521244 





8.129882 |3.616144 








8.112991 [20.949033 








4.166677 








0.634264 








1.743598 


13.169603 





4.075489 
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Transport- 
ation 
expense 


Distance 
from 
Residence 
to Work 


Service 
time 


Work load 
Average/ 
day 


Age 


Hit target 


Son 


Pet 


续 表 


Weight | Height 





min [225.000000 


11.000000 


1.000000 


28.000000 R05.917000 


81.000000 


10.000000 


0.000000 6 


3.000000 |163.000000 





25% |225.000000 


20.000000 


.000000 


28.000000 P41.476000 


2.000000 


1.000000 


0.000000 6 


9.000000 1167.000000 





S0% 1235.000000 


25.000000 


13.000000 


37.000000 [261.306000 


95.000000 


1.000000 


1.000000 6 


9.000000 1169.000000 





75% |246.000000 


26.000000 


14.000000 


43.000000 R68.519000 


98.000000 


1.000000 


2.000000 BB 


8.000000 |172.000000 





max |248.000000 








在 这 种 情况 下 ， 交 通 费 月 





半 ( 也 考虑 标 ?7 


时 间 约 为 12， 标 准 差 为 3.6。 我 们 可 以 反 
样本 ， 居 住地 与 办 公 地 点 相对 较 近 但 
工 倾向 于 避免 加 班 ， 但 他 














式 





a 











们 需要 更 多 的 时 间 来 实现 














51.000000 








这 显然 不 是 


统计 特征 来 展示 如 何 找到 聚 类 的 语义 内 容 。 在 现实 生活 中 ， 所 有 的 观察 必须 由 专家 【 例 
人 力 资 源 经 理 ) 验证 





16.000000 





























58.000000 B02.585000 





日 较 大， 而 从 居住 
舍 差 )。 然 而 ， 子 女 的 平均 数量 为 1， 有 2 个 子女 
类 包含 了 所 有 已 
费用 较 高 (例如 | 
门 的 平均 工作 量 与 前 
有 认 ， 我 们 也 可 以 假设 这 些 员工 通常 效率 更 高 ， 而 第 

















9.000000 





也 到 工作 


2.000000 





地 点 的 

















E 靳 这 个 








三 | 








了 Hx 
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Ca 

















契 父 二 











8.000000 | 





E 离 大 约 是 
的 员工 数 





06.000000|182.000000 








la 
时 


























让 








个 例子 中 观察 到 的 几乎 相 




















包 


i 一 个 示例 的 
比例 适中 ， 服 务 


前 





开 、 年 龄 在 28 一 58 人 员 的 
于 使 用 出 租车 服务 )。 这 些 员 











同 。 即 使 没有 正 














个 集合 
二 


人 口 


目标 例如 因为 路 途 时 间 更 长 )。 


公主 
世人 从 辣 / 


的 员工 ， 但 是 他 


个 详尽 的 分 析 ， 也 不 是 一 套 客观 的 陈述 。 分 析 的 目的 是 通过 观察 样本 的 














是 .天 二 本 估 
是 否 需要 使 


单个 聚 类 的 所 有 

















用 更 多 数量 的 聚 类 、 不 同 的 指标 或 
































区 域 ， 以 便 完 成 一 个 大 
常年 轻 的 人 ， 有 3 个 子女 芯 





EE 
风 |， 








图 3 


等 等 ) 
二 于 二/o 











3.4.3” 聚 类 不 稳定 性 作为 性 能 指标 


联 关 
聚 类 








佳 数量 ), 3 








贝 





$e 


过 

















常 有 两 

















可 能 性 : 
定义 了 原始 数据 集 蕊 的 


不 稳定 性 是 Von Luxburg 提出 的 方法 
衡量 算法 对 于 特定 数据 集 的 优 务 。 它 可 以 月 





且 计 算 相对 容易 。 该 方法 基于 以 下 ) 
对 于 数据 集 的 噪声 扰动 也 应 该 是 鲁 棒 的 。 换 句 话 说， 如果 数 和 
1 派生 数据 集 台 〈 基 于 特征 的 小 扰动 ) 应 该 映射 到 同一 个 聚 类 集合 。 如 果 不 满足 该 条 件 
噪声 扰动 太 强 烈 或 入 























轩 相 . 


Cu 























法 对 于 小 的 变化 太 敏 感 ， 


组 扰动 (或 子 采 样 ) 版 本 : 




















， 以 便 了 解 分 析 的 最 后 部 分 (特别 是 语义 上 下 文 的 定义 ) | 
他 算法 。 作 为 练习 ， 我 建议 大 家 分 析 包 
测试 对 应 不 同类 别 的 人 工 样本 的 预测 (例如 











如 
或 




















是 否 正太 














(在 Cluster stability: an overview 中 )， 可 以 
于 不 同 的 目的 (例如 调整 超 参 或 找到 聚 类 的 最 
满足 最 大 内 聚 和 分 离 要 求 的 
四 集 蕊 已 经 分 割 成 聚 类 集合 C， 


聚 类 结 


果 ， 




















不 是 很 


稳定 。 因 此 我 们 
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(| 

















如 果 我 们 应 用 一 个 产生 相同 数量 的 聚 类 me 的 算法 4， 可 以 定义 4CD 和 4C9) 的 距离 度 























量 ddJ， 它 测量 不 一 致 分 配 的 数量 〈 即 4C9D))， 并 且 可 以 表示 为 向 量 函数 ， 其 返回 对 应 每 个 
点 的 赋值 。 因 此 ， 假 设 必 要 时 算法 以 相同 方式 传播 ， 且 数据 集 明显 地 没有 随机 排列 ，d(*) 
可 以 简单 计算 不 同 标签 的 数量 。 算 法 的 不 稳定 性 〈 关 于 蕊 的 上 噪声 变化 ) 定义 为 : 



























































1CO= gaooeu CCD AXD)) 











因此 , 不 稳定 性 是 两 对 噪声 变化 聚 类 结果 之 间 的 平均 距离 。 当 然 这 个 值 并 不 是 绝对 的 ， 














因此 可 以 推导 出 的 规则 是 : 选择 产生 最 小 不 稳定 性 的 配置 。 同 样 重要 的 是 ， 这 种 方法 与 之 
前 讨论 的 其 他 方法 无 法 比较 。 由 于 它 基 于 其 他 的 超 参 数 〈 噪 声 变 化 的 数量 、 噪 声 均 值 和 方 





























子 采样 率 ， 等 等 )， 因 此 在 4 和 固定 时 它 也 可 能 产生 不 同 的 结果 。 特 别 是 噪声 的 大 











2 
a | 









































小 可 以 显著 地 改变 不 稳定 性 ， 因 此 在 决定 高 斯 噪声 的 和 克之 前 ， 有 必要 评估 头 的 均值 和 




















这 
思 





























协 方差 矩阵 。 在 示例 中 (基于 工作 缺勤 数据 集 的 DBSCAN 聚 类 ), 我 们 创建 了 20 个 扰动 版 
本 ， 
通过 














从 累加 噪声 项 n; 一 NE[ 和 I，Cov(X )/4) 开 始 并 应 用 倍增 掩 码 从 均匀 分 布 U0, 1) 中 采样 。 
这 种 方式 ， 茶 些 噪声 可 以 随机 消除 或 减少 ， 如 下 面 代码 所 示 : 











import numpy as np 
data = sdf.copy() 


n perturbed = 20 
n data = [] 


data mean = np.mean (data, axis=0) 
data cov = np.cov(data.T) / 4.0 


for i in range(n perturbed): 

gaussian noise = np.random.multivariate normal (data mean, data cov, 
size=(data.shape[0], )) 

noise = gaussian noise * np.random.uniform(0.0, 1.0, 
size=(data.shape[0], data.shape[1])) 

n data.append(data.copy() + noise) 









































在 这 种 情况 下 ， 我 们 将 不 稳定 性 计算 为 s 的 函数 ， 也 可 以 使 用 其 他 算法 或 超 参 来 重复 





个 示例 。 此 外 ， 我们 使 用 规范 化 的 Hamming 距离 ， 该 距离 与 两 个 聚 类 结果 之 间 不 一 致 的 
分 配 数量 成 比例 ， 如 下 所 示 : 














from sklearn.cluster import DBSCAN 
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from sklearn.metrics.pairwise import pairwise distances 


instabilities = [] 


fo EPs in Np.arandge(S50y 3L0y Ld5): 
Yn = [] 
for nd in n data: 


ds = DBSCAN (eps=eps, min samples=3, metric='minkowski', p=12) 


Yn.append(ds.fit predict (nd)) 
distances = [] 
for i in range (len (Yn)-1): 

for j in range(i, len (Yn)): 


d = pairwise distances (Yn[i] .reshape(-1, 1), Yn[j] .reshape 


(=s1,. LY hamming™) 


最 大 值 约 s= 12.5， 然 后 是 负 和 斜率 达到 了 最 终 值 0。 在 这 利 
F 本 ; 然而 ， 当 s 仍然 太 小 时 ， 密 度 可 达 性 链 很 容易 被 小 扰动 破坏 《〈 即 


且 





distances.append(d[0, 0]) 


instability = (2.0 * np.sum(distances)) 


instabilities.append(instability) 


























DBSCAN 的 聚 类 不 稳定 性 应 用 于 工作 缺勤 数据 





Instability 





人 


/ float(n_ perturbed ** 2) 


作为 s 的 函数 ， 如 图 3-12 所 示 。 
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图 3-12 DBSCAN 的 聚 类 不 稳定 性 应 用 于 






































作 缺 勤 数 ] 





居 集 作为 的 函数 











当 s<7 时 ， 值 为 null。 这 样 的 结果 是 因为 算法 生成 了 大 量 聚 类 和 噪声 样本 。 由 于 样本 
分 布 在 不 同 的 区 域 ， 小 的 扰动 并 不 能 改变 分 配 。 而 当 7<s< 17 时 ， 我 们 观察 到 正 斜 率 达 到 




















| 包含 越 来 越 多 的 村 





样本 越过 球 的 边界 ， 被 聚 类 排除 在 外 )。 因 此 ， 在 应 



































情况 下 ， 聚 类 变 得 越 来 越 大 ， 并 


j 附 加 噪声 后 ， 样 本 通常 被 分 配 到 不 同 


的 聚 类 。 这 种 现象 在 s= 12.5 时 达到 最 大 值 ， 然 后 就 开始 变 得 
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那么 明显 。 














事实 上 ， 当 s 足够 大 时 ， 球 的 结合 可 以 包 事 整 个 聚 类 ， 为 小 扰动 留 下 足够 的 空余 空间 。 


当然 ， 在 根据 数据 集 到 





本 将 生成 相同 的 分 本 


认 的 。 一 般 来 说 ， 这 种 方法 可 以 











六 赋值 后 












































之 前 对 对 进行 全 面 分 析 。 事 实 上 ， 错 误 的 决定 可 
定性 , 且 并 不 表示 坏 的 或 好 的 表现 。 特别 地 , 当 聚 
附加 的 噪声 对 某 些 样本 的 影响 可 以 忽略 不 计 ，j 
况 下 ， 此 方法 比 其 他 方法 弱 ， 应 使 用 方差 很 小 的 高 斯 噪声 《〈 通 常 小 于 最 小 聚 类 协 方差 /方差 ) 
进行 二 次 采样 来 应 用 此 方法 。 另 一 方面 ， 对 于 基于 密度 的 算法 ， 子 采样 显然 是 非常 危险 的 ， 



































K-means 测试 这 种 方法 ， 以 便 找 到 最 人 





其 中 小 的 聚 类 可 能 | 


于 可 达 忆 














， 将 仅 生成 单 
已 。 在 我 们 的 特定 情况 下 ，s 
于 所 有 算法 和 


























类 ， 如 果品 声 不 是 太 强 ， 那 么 所 有 扰动 版 
E 了 高 稳定 性 ， 也 是 通过 t-SNE 图 确 
几何 形状 ， 但 是 我 建议 在 决定 创建 扰动 版 本 


















































从 而 产生 一 种 或 大 或 小 的 不 稳 
的 方差 时 (例如 在 高 斯 混合 中 )， 



































3.5 K-medoids 


在 第 2 章 中 ， 我 们 已 经 训 
选择 。 但 是 , 这 一 算法 有 两 个 主要 的 局 限 性 : 





指标 始终 是 欧 氏 的 ， 


























对 于 异常 值 鲁 棒 性 不 








是 非常 好 。 第 一 个 因素 是 显而易见 的 ， 而 第 
二 个 因素 是 质心 性 质 的 直接 结果 。 事 实 上 ， 
K-means 选择 的 是 实际 均值 不 包含 在 数据 集 
































中 的 质心 。 因此 ， 当 聚 类 具有 一 些 异常 值 时 ， 





均值 会 受到 影响 并 按 比 作 
举 一 个 示例 ， 其 中 存在 几 个 异常 值 迫使 质心 














到 达 密 集 区 域 以 外 的 位 置 ， 如 图 3-13 所 示 。 


K-medoids 最 初 (在 Clustering by means 
出 是 为 了 减轻 异常 值 对 和 鲁 棒 性 的 缺乏 (在 原始 论文 中 ， 该 算法 设计 为 





of Medoids 中 ) 被 提 

















j 它 可 以 完全 改变 





其 余 样本 的 结构 。 在 这 些 情 















































的 损失 而 变 成 了 一 组 孤立 的 噪声 点 。 我 建议 大 家 也 使 用 
的 聚 类 数量 《〈 通 常 与 最 小 不 稳定 性 相关 )。 





1 向 它们 移动 。 此 处 

































































E 明 ， 当 聚 类 的 几何 体 是 凸 状 时 ，K-means 通常 是 一 个 不 错 的 








异常 值 
Medoid 
密集 区 域 
到 3-13 ”质心 选择 示例 〈 左 ) 和 中 心 点 
选择 示例 〈 右 ) 


仅 适 用 于 曼哈顿 指标 ), 但 后 续 设 计 了 不 同 的 版 本 以 允许 用 于 任何 度量 (特别 是 任意 的 闵 可 


























夫 斯 基 度 量 )。K-medoids 与 K-means 最 主要 的 不 同 在 于 质心 的 选择 ， 其 质心 始终 属于 数据 


集 的 示例 样本 〈 称 为 medoid )。 该 算法 本 身 与 标准 K-means 非常 相似 ， 并 且 交 蔡 定 义 medoid 


= 已 EX (作为 最 小 化 分 配给 聚 类 C; 的 所 有 其 他 样 





























配 样本 到 最 近 的 medoid 的 聚 类 。 
































J 平均 距离 或 总 距离 的 元 素 ) 重新 分 
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=~ 


恨 容易 理解 异常 值 不 再 





的 概率 接近 于 零 。 


K-medoids 的 性 能 较 差 。 在 这 种 | 
成 可 以 捕获 这 些 样本 的 虚拟 球 〈 请 记 人 
因此 ， 虽 然 K-means 可 以 将 质心 移动 到 非 密集 区 域 以 便 捕 获 远离 的 点 ， 但 是 

















【有 较 高 的 权重 ， 因 为 与 标准 质心 相反 ， 它 们 

















被 选 为 medoid 


另 一 方面 ， 当 聚 类 由 归 类 为 异常 的 远离 样本 包围 的 密集 斑点 组 成 时 ， 





表 况 下， 算法 可 能 会 错误 地 分 配 这 些 档 




















jE 半径 





















































含 太 多 点 时 ，K-medoids 不 太 可 能 以 这 种 方式 运行 。 


此 外 ，K-medoids 倾向 
均值 的 位 置 将 整个 




















联合 














开口 




















K-medoids 和 K-means 最 后 一 个 根本 





























可 能 或 多 或 少 


有 侵略 改 




















(以 相同 的 方式 评估 每 个 分 看 

















2 











配 在 第 一 个 点 。 








一 般 来 说 ， 预 测 了 
数 等 方法 测试 多 种 配置 ， 并 选择 产生 更 好 分 割 的 配 
整 后 的 兰 德 分 数 )。 

















c2= (2,1) 

















时 的 不 同 ) 


E 。 正如 我 们 在 第 2 章 开 始 讨论 的 那样 ， 
是 供 ， 而 当 p 增加 时 (在 通 月 





分 量 之 间 的 最 大 差异 成 了 分 量 的 优势 。K-means 基 了 
较 大 的 疡 值 可 以 导致 更 好 的 性 
显 )。 当 cl= (0,0)、 
1.7， 而 欧 氏 距离 为 1.37 和 1.47。 








FE 本 ， 因 为 它 无 法 生 








是 由 质心 或 medoid 的 相互 位 置 隐 式 定义 的 )。 


当 密 集 斑点 包 





有 两 个 峰值 的 高 重 蕉 的 斑点 ， 而 K-means 通常 根据 平 





区 域 分 为 两 个 部 分 。 如 果 凸 几何 的 假设 成 立 ， 则 通常 会 接受 此 行为 ， 但 
在 其 他 情况 下 它 可 能 是 一 种 限制 (我 们 将 在 接 下 来 的 示例 中 展示 此 效果 )。 
































最 长 的 距离 
































E 确 的 p 值 并 不 容易 ， 























日 是 总 是 可 以 使 用 类 似 轮 廊 和 调 











在 我 们 





松 地 使 用 后 一 个 选项 来 评估 性 能 。 





并 将 样本 在 [-5.0,5.0] 的 方术 








的 示例 中 ,， 
因此 ， 
匡 内 分 为 8 个 斑点 ， 如 下 所 示 : 

















《 即 最 大 化 内 聚 力 和 分 























各 生成 一 个 包含 基本 事实 的 数据 集 ， 因 








区 别 就 是 度量 距离 。 由 于 没有 限 第 














|， 开 -medoids 
由 曼哈顿 度量 











日 的 Minkowski 度量 中 )， 
最 常见 的 折 中 方案 ( 吹 氏 距离 )， 但 当 























EF 能 时 会 有 一 些 特 殊 情 况 ( 当 比较 p=1 与 p>1 时 ， 效 果 更 为 明 
X= (0.55,1.25)， 曼 哈 顿 距离 dq1(x,c1) 和 d1(x,c2) 分 别 为 1.8 和 
因此 当 = 1 时 ， 该 点 被 分 配 到 第 二 个 聚 类 ， 


而 p=2 时 分 


整 后 的 兰 德 分 
离 或 更 高 的 调 
此 我 们 可 以 轻 




















我 们 将 使 用 函数 make_blobsO 〇 生成 1000 个 样本 ， 


from sklearn.datasets import make blobs 


nb _ samples = 1000 


nb clusters 


X, Y = make blobs(n samples=nb samples, 
cluster std=1 .2, 


;8 


n _ features=2, 





center box=[-5.0, 5.0], 





random state=1000) 





生成 的 数据 集 呈 现 强烈 的 重 登 〈 如 图 




















高 水 准 的 结果 ， 但 
































3-16 所 示 )， 因 此 我 们 不 期 望 使 








感 兴趣 的 是 比较 K-means 和 KK-medoids 所 做 的 分 配 。 


centers=nb clusters, 


对 称 方法 获取 
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让 我 们 开始 评估 由 KK-means 取得 的 调整 后 的 兰 德 分 数 ， 如 下 所 示 : 











from sklearn.cluster import KMeans 
from sklearn.metrics import adjusted randq score 


km = KMeans (n clusters=nb clusters, random state=1000) 
C km = km.fit predict (Xx) 


print('Adjusted Rand Score K-Means: {}'.format (adjusted rand score(Y,C km))) 


代码 块 的 输出 如 下 所 示 : 


Adjusted Rand score K-Means:0.4589907163792297 

















该 值 足以 理解 K-means 正在 执行 许多 错误 的 分 配 ， 特 别 是 在 重 共 区 域 。 由 于 数据 集 很 
难 使 用 这 种 方法 进行 聚 类 ， 我 们 未 将 此 结果 视 往 真正 指标 ， 而 是 作为 可 以 与 K-medoids 分 
数 进行 比较 的 度量 。 让 我 们 通过 p=7 的 Minkowski 度量 来 实现 这 一 算法 (建议 大 家 更 改 该 
值 并 检查 结果 )， 如 下 所 示 : 




























































































import numpy as np 


C= np.random.randint (0, nb clusters, size=(X.shape[0],), dtype=np.int32) 


mu idxs = np.zeros (Shape= (nb clusters, X.shape[1])) 
metric = 'minkowski'"' 
p=7 


tolerance = 0.001 





mu copy = np.ones like (mu idxs) 





禹 
[Ea 


数组 C 包含 赋值 ， 而 mu_idxs 将 包含 medoid。 由 于 存储 完整 medoid 所 需 的 空间 晶 
常 很 小 ， 我 们 更 喜欢 这 个 方法 而 不 是 仅仅 存储 索引 。 优 化 算法 如 下 所 示 : 




















import numpy as np 


from scipy.spatial.distance import pdist, cdist, squareform 
from sklearn.metrics import adjusted rand score 


while np.linalg.norm(mu idxs -mu copy) > tolerance: 
for i in range (nb clusters): 
Di = squareform(pdist(X[C == i], metric=metric, p=p)) 





SDi = np.sum(Di, axis=1) 
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mu_copy[il = mu iaqxs[il.copy() 
idx = np.argmin (SDi) 
mu idxs[i] = X[C == i] [idqx]j.copy() 


C= np.argmin(cdist(X, mu idxs, metric=metric, p=p), axis=1) 
print('Adjusted Rand score K-Medoids: {}'.format (adjusted rand score(Y, C))) 
这 个 行为 很 简单 。 在 每 次 志 代 中 ， 我 们 计算 属于 一 个 聚 类 的 所 有 元 素 之 间 的 成 对 距离 
(这 实际 上 是 最 费时 费力 的 部 分 ), 然后 我 们 选择 最 小 化 总 和 SDi 的 medoid。 在 一 次 循环 后 ， 


我 们 通过 最 小 化 它们 与 medoid 之 间 的 距离 来 分 配 样本 。 重 复 操作 指导 medoid 的 范 数 变 化 
小 于 预定 的 阐 值 。 调 整 后 的 兰 德 分 数 如 下 所 示 : 























Adjusted Rand score K-Medoids: 0.4761670824763849 


最 终 调整 后 的 兰 德 分 数 受 算法 的 随机 初始 化 影响 ， 因 
此 之 前 的 结果 在 运行 代码 时 可 能 有 轻微 的 变化 。 在 实 

0 际 应 用 中 ， 我 建议 使 用 基于 最 大 化 迭代 次 数 与 小 容 差 
的 双 停 止 标准 。 


因此 ， 即 便 重 炙 问题 尚未 解决 ，K-medoids 性 能 也 略 好 于 K-means。 基 本 事实 、K-means 
和 K-medoids 的 结果 ， 如 图 3-14 所 示 。 





Ground truth K-means K-medoids with Minkowski metric and p=7 


X1 














图 3-14 基本 事实 ( 左 )、K-means (中 ) 和 K-medoids ( 右 ) 

正如 你 所 看 到 的 , 共 本 事实 包含 两 个 非常 难以 育 类 的 重 羞 区域。 在 这 个 特定 的 示例 中 ， 
我 们 对 于 解决 这 个 问题 并 不 感 兴 趣 ， 而 对 展示 两 种 方法 的 不 同行 为 更 感 兴 趣 。 如 果 我 们 考 
虑 前 两 个 斑点 〈 左 上 角 )，K-means 将 整个 区 域 分 成 两 部 分 ， 而 K-medoids 将 所 有 元 素 分 配 
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给 同一 个 聚 类 。 在 不 知道 基本 事实 的 情况 下 ,后 一 个 结果 可 能 比 前 一 个 更 为 连贯 。 事实 上 ， 


观察 第 一 个 图 ， 我 们 可 能 会 注意 到 密度 差异 不 是 那么 强 ， 以 至 于 完全 证 明了 分 裂 ( 然 而 ， 
LE 的 )。 由 于 该 区 域 非常 密集 且 与 近邻 分 离 ， 因此 单个 聚 类 可 能 是 
































= 





两 利 





























在 某 些 情况 下 这 可 能 是 合 到 
预期 结果 。 此 外 ， 根 据 不 相似 性 来 区 
被 错误 地 分 配 )， 因 此 K-medoids 是 比 
算法 几乎 以 相同 的 方式 处 置 第 二 个 重 车 区 域 ( 右 下 角 )。 这 是 因为 K-means 将 质心 放置 































































































分 样本 是 几乎 不 太 可 能 的 〈 大 多 数 靠近 分 离线 的 样本 
K-means 更 不 具 侵 略 性 且 显 示 更 好 的 折 庄 效果。 相反， 
























































在 非常 接近 某 些 实 眼 





泵 村 


本 的 位 置 。 志 














E 这 两 种 情况 下 ， 算 法 需要 在 0 和 4 之 间 创 建 几乎 水 平 

















的 分 隔 ， 和 否则 无 法 对 区 域 进行 分 割 。 这 种 行为 对 于 基于 标准 球 的 所 有 方法 都 是 通用 的 ， 并 
且 在 这 种 特定 情况 下 ， 这 是 极其 复杂 的 几何 形状 的 正常 结果 《许多 相 邻 点 具有 不 同 的 标签 )。 














因此 , 我 们 可 以 得 + 



































结论 ，K-medoids 对 异常 值 更 健壮 ， 在 避免 意外 的 分 离 方 面 比 K-means 














表现 更 好 。 另 一 方 


H|， 当 寿 








E 没 有 异常 




















值 的 非常 密集 的 区 域 中 工作 时 ， 这 两 种 算法 (特别 是 




















当 采 用 同样 的 度量 时 〉 是 等 效 的 。 作 为 练习 ， 我 建议 大 家 使 用 其 他 指标 (包括 余弦 距离 ) 


并 比较 结果 。 
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有 时 数据 集 太 大 而 无 法 放 入 内 存 中 ， 或 者 样本 是 通过 通道 流 式 地 传输 ， 并 在 不 同 的 时 












































间 步 长 接收 。 在 这 种 情况 下 ， 之 前 讨论 的 算法 都 不 能 使 用 ， 因 为 它们 都 假定 在 第 一 步 的 时 


候 就 获取 到 全 部 的 数据 集 。 





多 实际 过 程 中 实施 。 























出 于 这 个 








原因 ， 一 些 联机 的 替代 方案 被 提出 ， 并 且 目 前 正在 许 


Nn 














3.0.] Mini-batch K-means 


Mini-batch K-means 
因此 有 必要 包含 一 个 额外 的 步骤 ， 该 步骤 负责 在 现 有 聚 类 不 再 有 效 时 重新 分 配 样本 。 特 别 
地 ，Mini-batch K-means 不 是 计算 全 局 平均 值 ， 而 是 与 流 平 均值 一 起 使 用 。 收 到 批 次 后 ， 
算法 会 计算 部 分 均值 并 确定 质心 的 位 置 。 但 是 ， 并 不 是 所 有 的 聚 类 都 有 相同 数量 的 分 配 ， 
因此 算法 必须 决定 是 等 待 还 是 重新 分 配 样本 。 























法 是 标准 




















K-means 的 扩展 ， 但 由 于 不 能 对 所 有 样本 计算 质心 ， 




























































































通过 一 个 非常 低 效 的 流 式 处 理 可 以 立即 理解 这 一 概念 ， 该 流 式 处 理 开 始 发 送 属于 半 个 
空间 的 所 有 样本 ， 并 且 仪 包含 属于 互补 半 个 空间 的 几 个 点 。 由 于 只 类 的 数量 是 固定 的 ， 该 








算法 将 开始 优化 ， 同 时 只 考虑 


















































个 子 区 域 。 让 我 们 假设 一 个 质心 被 放置 在 一 个 属于 互补 












































空间 的 少数 样本 的 球 中 心 。 如 果 越 来 越 多 的 批 次 继续 向 密集 区 域 添加 点 ， 那 么 算法 可 以 
合理 地 丢弃 孤立 的 质心 并 重新 分 配 村 
































f 本。 但是， 如果 进程 开始 发 送 属于 互补 的 半 个 空间 
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的 点 时 ， 算 法 必须 准备 好 将 它们 分 配给 最 合 过 





白 区 域 中 )。 











该 方法 通常 基于 称 为 重新 分 配 比率 a 的 参数 。 当 a 较 小 时 ， 
前 等 待 较 长 的 时 间 ， 而 较 大 的 值 





的 聚 类 〈 即 多 





















































法 必须 将 其 他 质心 放置 在 空 























算法 将 在 重新 分 配 样本 之 




















当然 ， 我 们 希望 避免 这 两 种 极端 情况 。 换 














句 话说 ， 我 们 需要 避免 一 种 在 做 出 决策 之 前 需要 许多 样本 的 过 于 静态 的 算法 ， 而 同时 又 需 


要 避免 过 于 快速 变化 的 算法 在 每 次 # 
低 计 算 成 本 的 次 优 解 ， 而 后 者 可 能 变 条 
的 标准 K-means。 考 虑 到 这 种 场景 通 
且 非 常 精确 的 解决 方 



































但 是 ， 重 





如 这 个 过 程 是 








不 
口 




















新 分 配 比 率 的 选择 必须 
纯粹 的 随机 ? 样本 是 独立 的 


























过 程 

















2 后 这 YY 要 
案 感 兴 


浊 ? 而 是 对 在 收集 














类 似 于 在 每 个 批 次 处 理 后 
目 关 ， 我 们 一 
所 数 据 时 得 到 很 好 的 近似 值 感 兴趣 。 















































青 况 来 评估 ， 包 括 



































新 分 配 样本 。 通 常 ， 第 一 种 情况 产生 具有 较 

















mh 
Wh 


新 应 用 于 流 数 据 集 
般 不 会 对 需要 高 计算 成 本 


























流 式 过 程 的 合理 预测 〈 例 





吗 ? 在 特定 时 间 范 围 内 茶 些 样本 是 否 更 频 

















繁 ? )。 此 外 ， 我 们 必须 考虑 聚 类 的 数据 量 〈 即 批 次 大 小 ， 这 是 一 个 非常 重要 的 因素 )， 当 





然 还 有 可 以 配置 的 硬件 。 一 般 来 说 ， 我 们 可 以 订 
K-means 产生 的 结果 与 标准 K-means 相当 ， 具 有 
于 外 部 资源 )， 且 相应 地 选择 重新 分 配 比率 。 





不 是 一 个 可 控 的 超 参 数 ， 











相反 ， 当 从 真实 数据 4 











太 重 要 的 参数 且 影 响 较 人 
因素 。 如 果 它 足够 大 ， 导 

















E 明 当 批 次 大 小 不 是 太 小 时 ，Mini-batch 


























成 过 程 中 对 批 次 进行 均匀 采样 时 ， 习 
氏 。 实 际 上 ， 在 这 些 情况 下 ， 批 次 大 小 通常 是 良好 结果 的 主要 影响 





























b 么 算法 可 以 立即 确 





























低 内 存 需 求 和 高 计算 复杂 度 《〈 但 是 这 常常 








lml 
Wh 











新 分 配 比率 成 为 了 一 个 不 




















定 质心 的 最 可 能 位 置 ， 随 后 的 批 次 不 能 显著 地 




















改变 这 种 配置 《从 而 减少 了 对 连续 重新 分 配 的 需求 )。 当 然 ， 在 联机 场景 中 ， 我 们 很 难 确 定 





数据 生成 过 程 的 结构 ， 因 此 通常 









































段 设 批 次 (如 果 不 是 太 小 ) 包含 每 个 独特 区 域 的 足 够 





代表 。 数 据 科 学 家 的 主要 任务 就 是 通过 收集 足够 的 样本 来 执行 完整 的 K-means， 并 与 


Mini-batch K-means 
(有 具有 相同 的 重新 分 配 比 率 ) 的 情况 并 不 奇怪 。 考 虑 到 该 入 
现象 可 以 理解 ， 所 以 有 时 较 大 上 
此 重新 分 配 的 概率 较 低 〈 即 算法 更 快 但 不 太 准 确 )。 相 反 ， 在 术 
制 算法 执行 更 多 迭代 ， 具 有 更 准确 
检查 不 同 的 值 。 




















城 团 土 








用 的 经 验 法 则 3 

















新 分 配 ， 较 小 的 批 次 可 以 3 











不 容易 ， 





3.6.2 BIRCH 

















BIRCH 入 














进行 性 和 











F 这 一 假设 。 观 察 到 较 小 批 次 产生 较 好 的 最 终结 果 


















































因此 一 般 的 建议 是 在 做 出 决定 前 








法 并 不 会 立即 重新 分 配 样本 ， 这 
致 错误 的 配置 。 但 该 配置 具有 更 多 的 代表 ， 





























日 同 的 情况 下 ， 因 为 频繁 地 
































法 具有 比 Mini-batch K-means 稍微 复杂 的 动态 ， 





最 后 部 分 采用 的 一 种 方法 








的 最 终 配 置 。 由 于 定义 通 

































































(层次 聚 类 )， 我 们 将 在 第 4 章 介绍 。 对 于 我 们 而 言 ， 最 重要 的 部 分 是 数据 准备 阶段 。 该 阶 
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段 基于 称 为 聚 类 或 特征 -特性 树 (Characteristic-Feature Tree，CF-Tree) 的 特定 树 结构 。 
给 定 一 个 数据 集 X， 树 的 每 个 节点 都 由 3 个 元 素 组 成 : 


Ch =| Ni, 2 3,21 x 
了 J 


特征 元 素 分 别 是 属于 节点 的 样本 数量 、 所 有 样本 总 和 以 及 平方 范 数 总 和 。 这 一 选择 背 
后 的 原因 很 明显 ， 但 是 现在 让 我 们 将 注意 力 集中 在 树 的 结构 ， 以 及 在 尝试 平衡 高 度 时 如 何 
插入 新 的 元 素 。CF-Tree 的 所 有 终端 节点 都 是 必须 合并 的 实际 子 聚 类 ， 以 此 来 获取 所 需 数量 


的 聚 类 ， 如 图 3-15 所 示 。 
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图 3-15 ”有 具有 二 进 制 分 区 的 简单 CF-Tree 示例 























图 中 的 这 些 点 表示 指向 子 节点 的 指针 。 由 此 可 见 ， 每 个 非 终 端的 节点 是 与 指向 它 的 所 
有 子 节点 (CF, p;) 的 指针 一 起 存储 的 ， 而 终端 节点 是 纯粹 的 CF。 为 了 讨论 插入 策略 ， 我 
们 必须 考虑 另外 两 个 因素 。 第 一 个 称 为 分 支 因子 B， 第 二 个 称 为 阐 值 7。 此 外 ， 每 个 非 终 
端 节点 最 多 可 包含 B 个 元 组 。 该 策略 由 在 通过 减少 存储 的 数据 量 和 计算 次 数 ， 使 得 仅 依赖 
于 主 内 存 的 流 式 处 理 过 程 的 性 能 最 大 化 。 

现在 让 我 们 考虑 一 个 需要 插入 的 新 样本 x;。 很 容易 理解 CFj= (xpapbj) 的 质心 只 是 
w= aj/n;， 因 此 x; 沿 着 树 传播 到 达 终 端 CF 〈 子 聚 类 )， 其 中 距离 dQ;, yw) 是 最 小 的 。 此 时 ， 
CF 每 次 更 新 是 增加 的 : 


Ni > > lz, 中 -局 + 25 中 马 加 中 | 元 中 
p p p 
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但 是 ， 如 果 不 控制 ， 树 很 
个 附加 步骤 。 一 旦 CF 确定 





的 


念 将 在 第 4 章 上 
E 离 )。 最 不 相似 的 一 对 被 分 成 了 两 个 部 分 ， 其 
的 高 度 紧凑 性 
| 总 数 减 少 到 所 需要 的 值 。 
为 我 们 可 以 立即 将 这 些 分 段 标识 为 连续 与 合并 。 本 章 不 会 讨 


均 吕 





子 聚 类 ， 直 到 
容易 执行 此 
这 一 阶段 ,但 这 3 
使 当 数 量 与 所 需 和 


于 分 


) 文 





xi 除外 )， 





因子 ， 都 分 配 一 个 新 的 块 # 
上 BIRCH 会 执行 一 个 额外 的 步骤 来 检查 所 有 子 聚 类 之 间 的 差异 〈 这 一 概 





因 贞 


























容易 变 得 不 平衡 ， 从 而 导致 性 能 损失 。 因 此 ， 该 算法 执行 
后 ， 就 计算 更 新 的 半径 六 无 论 是 否 wy>7 以 及 CF 的 数量 是 否 大 
省 且 原 始 的 CF 保持 不 变 。 由 于 这 个 新 的 块 几乎 完全 是 空 
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了 > 
聚 类 


操作 ， 因 
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E 并 力 





























反 ， 该 方法 可 以 很 轻易 地 管理 大 量 的 聚 类 n。.， 而 当 n. 笑 
门 在 示例 中 所 看 的 那样 ， 其 精度 
的 最 优 使 用 需要 准确 
]， 因 此 B 和 7 在 某 些 批 次 处 


y 
nbz 
SI 


联 忆 





证 A 化 





FEF， 正如 我 人 


精度 ， 并 且 它 








F 解 得 更 加 淖 


不 难 想象 。 所 有 终端 的 CF 被 合并 到 更 大 的 块 


9 聚 类 数量 











楚 。 但 是 ， 读 者 可 以 考虑 属于 两 个 不 同 子 聚 类 的 点 之 间 的 平 


一 部 分 被 移入 了 新 的 块 。 这 种 选择 保证 
[ 速 了 最 后 的 步 又 。 聚 类 阶段 的 算法 需要 合 # 
因此 ， 如 果 之 前 已 经 最 小 化 了 总 差异 ， 则 我 们 更 
EF 细 讨论 

到 确定 单个 聚 类 ( 即 
因此 ， 与 Mini-batch K-means 相 



































事实 上 ， 涉 及 实际 
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L 配 时 也 可 以 停止 该 过 程 )。 












































小 时 ， 该 方法 不 是 非常 有 效 。 事 




















通常 低 于 使 用 Mini-batch K-means 所 达到 的 
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几 场 景 下 使 























过 吊 了 有 
细 粒 度 分 


够 在 几 次 迭代 后 校 ] 





生 





| 的 
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始 选项 。 





子 和 阅 值 。 由 于 该 算法 的 主要 目的 是 在 
后 可 能 变 得 无 效 (而 Mini-batch K-means 


完 
E 聚 类 )， 从 而 产生 次 优 结果 。 因 此 ，BIRCH 主要 用 于 需要 非常 


地 选择 分 支 因 










































































联机 过 程 ， 





而 在 所 有 











他 情况 下 , 通常 最 好 选择 Mini-batch K-means 作为 初 











3.6.3 Mini-batch K-means 与 BIRCH 的 比较 


种 算法 的 性 能 


在 这 个 示例 中 , 我 们 想 要 用 一 个 包 
行 比较 (由 











今 分 宝 


含 分 割 为 8 个 斑点 的 2000 个 相 








本 的 二 维 数据 集 将 两 


























于 目的 是 分 析 ， 我 们 也 使 用 了 基本 事实 )， 如 下 所 示 : 








from sklearn.datasets import make blobs 


nb clusters = 8 


nb_samples = 2000 


X Y = make blobs(n samples=nb samples, 
cluster std=0.25, 


random state=1 











月 





了 


00) 


比较 Mini-batch K-means 和 BIRCH 的 二 维 数 志 
中 的 任何 关联 ) 如 图 





centers=nb clusters, 
.Sy 





n features=2, 


center box=[-1.5, shuffle=True, 
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集 〈 已 经 随机 处 到 

















3-16 所 示 。 
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Blob8 


X1 





























图 3-16 用 于 比较 Mini-batch K-means 和 BIRCH 的 二 维 数据 集 


在 执行 联机 聚 类 前 ， 评 估 标 准 KK-means 的 调整 后 的 兰 德 分 数 是 有 帮助 的 ， 如 下 所 示 : 


from sklearn.cluster import KMeans 




















km = KMeans (n clusters=nb clusters, random state=1000) 
Y pred km = km.fit predict (x) 


print('Adjusted Rand score: {}'.format (adjusted rand score (Y，Y pred km))) 





代码 块 的 输出 如 下 所 示 : 
Adjusted Rand score: 0.8232109771787882 
考虑 到 数据 集 的 结构 (没有 四 陷 )， 我 们 可 以 合理 地 假设 该 值 代表 联机 过 程 的 基准 。 








我 们 现在 可 以 用 reassigment ratio=0.001、threshold=0.2 和 branching factor=350 来 实例 化 
类 MiniBatchKMeans 和 Birch。 这 些 参数 值 是 在 研究 后 选择 的 ， 但 我 建议 大 家 使 用 不 同 的 配 
置 来 重复 这 个 例子 ， 比 较 结果 。 在 这 两 种 情况 下， 我们 假设 批 次 大 小 为 50 个 样本 ， 如 下 所 示 : 


from sklearn.cluster import, MiniBatchKMeans, Birch 








batch size = 50 


mbkm = MiniBatchKMeans (n clusters=nb clusters, batch size=batch size, 
reassignment ratio=0.001, random state=1000) 
birch = Birch(n clusters=nb clusters, threshold=0.2, branching factor=350) 


该 示例 的 目的 是 使 用 方法 partial_fit0 以 增 量 方式 训练 两 个 模型 ， 并 考虑 到 每 个 步 又 之 








88 第 3 章 高 级 聚 类 
前 处 理 的 数据 总 量 来 评估 调整 后 的 兰 德 分 数 ， 如 下 所 示 : 











from sklearn.metrics import adjusted rand score 


scores mbkm = [|] 
scores birch = [] 


for i in range(0, nb samples, batch size): 
X batch, Y batch = X[i:i + batch size], Y[i:i + batch size] 
mbkm.partial fit (X batch) 
birch.partial fit(X batch) 
scores mbkm.append(adjusted rand score(Y[:i + batch size], mbkm. 
predict (Xx[:i + batch sizel]))) 
scores birch.append(adjusted rand score(Y[:i + batch size], birch. 
predict(X[:i + batch size]))) 
print('Adjusted Rand Score Mini-Batch K-Means: {}'.format (adjusted rand 








scorel(Y, Y pred mpbkm) ) ) 
print('Adjusted Rand Score BIRCH: {}'.format (adjusted rand scorel(Y, Y_ 
pred pirch) )) 


代码 段 的 输出 包含 整个 数据 集 的 调整 后 的 兰 德 分 数 : 


Adjusted Rand Score Mini-Batch K-Means: 0.814244790452388 
Adjusted Rand score BIRCH: 0.767304858161472 


Nig en 二 处理 后 Mini-batch K-means 几乎 达到 基准 ， 而 
BIRCH 的 性 能 稍 差 一 些 。 为 了 更 好 地 理解 这 个 行为 ， 让 我 们 将 调整 后 的 兰 德 分 数 增 量 作为 
批 次 的 函数 ， 如 图 3-17 厅 质 示 ， 
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3-17 调整 后 的 兰 德 分 数 增 量 作为 批 次 的 函数 〈 样 本 数量 ) 





pa 


























正如 你 所 看 到 的 ，Mini-batch K-means 很 快 达到 最 大 值 ， 所 有 后 续 振 荡 都 是 由 于 重新 分 
配 引 起 的 。 相 反 地 ，BIRCH 的 性 能 总 是 较 差 是 有 负面 趋势 。 造 成 这 种 差异 的 主要 原因 是 策 
略 不 同 。 事 实 上 ，Mini-batch K-means 可 以 在 几 个 批 次 后 修正 质心 的 初始 猜想 ， 并 且 重 新 分 








































































































配 并 不 会 显著 地 更 改 配置 。 另 一 方面 ，BIRCH 执行 的 合并 次 数 受 样本 数量 的 影响 。 
起 初 , Mini-batch K-means 和 BIRCH 性 能 差异 并 不 是 很 大 ， 因 为 CF-Tree 中 的 子 聚 类 数 


















































量 不 是 很 大 因此， 聚合 更 加 一 致 )， 但 经 过 几 个 批 次 后 ，BIRCH 必须 聚合 越 来 越 多 的 子 聚 

















类 以 便 获取 所 需 的 最 终 聚 类 数量 。 这 种 情况 ， 加 上 流 式样 本 的 数量 的 增加 ， 驱 动 算法 重新 排 
列 树 , 经 常 导致 稳定 性 的 损失 。 此 外 , 数据 有 一 些 重 登 , 可 以 通过 对 称 方法 更 容易 地 管理 ( 实 













































































际 上 ， 即 使 分 配 错误 ， 质 心 也 可 以 达到 它们 的 最 终 位 


置 )， 而 分 层 方法 (如 BIRCH 采用 的 方 









































法 ) 更 能 够 找到 所 有 的 子 区 域 ， 但 在 将 子 聚 类 与 最 小 








更 容易 出 错 。 这 个 例子 证 实 了 Mini-bach K-means 通常 作为 第 一 选择 是 可 取 的 ， 并 且 只 有 在 性 





























分 离合 并 时 ， 或 者 更 糟 的 是 在 重 受 时 ， 









































能 不 符合 预期 时 《通过 仔细 选择 参数 ) 才 应 该 选择 BRICH。 我 建议 大 家 使 用 大 量 的 所 需 聚 类 重 














复 该 示例 (例如 nb_clusters=20 和 center_box=[ 一 10.5,10.5])。 有 可 能 看 至 

















| 在 这 种 情况 下 保持 所 


























有 其 他 参数 不 变 ) 通过 Mini-batch K-means 执行 的 重 分 配 减 慢 了 收敛 ， 最终 调整 后 的 兰 德 分 数 
更 差 ， 而 BRICH 立即 达到 最 佳 值 (几乎 等 于 标准 K-means 所 达到 的 值 )， 并 且 不 再 受 样本 数 


























量 的 影响 。 





3.7 总 结 














在 本 章 中 ， 我 介绍 了 一 些 可 用 于 解决 非 凸 问题 的 最 重要 的 聚 类 算法 。 谱 聚 类 是 一 种 非 
常 流行 的 技术 ， 可 以 将 数据 集 投影 到 新 的 空间 ， 将 凹面 几何 变 为 凸 面 几何 ， 并 且 K-means 





























等 标准 算法 可 以 轻松 地 分 割 这 些 数据 。 

















相反 , 均值 漂移 和 DBSCAN 会 分 析 数 据 集 的 密度 并 尝试 将 其 拆 分 ,以 便 将 所 有 密集 和 
连接 的 区 域 合 并 在 一 起 以 组 合成 聚 类 。 特 别 地 ，DBSCAN 在 非常 不 规则 的 情况 中 很 有 效 ， 
因为 它 是 基于 连接 的 本 地 最 近邻 集合 ， 直 到 分 离 度 超过 预定 义 的 阔 值 为 止 。 通 过 这 种 方式 ， 
该 算法 可 以 解决 许多 特定 的 聚 类 问题 ， 唯 一 的 缺点 是 它 还 会 产生 一 组 无 法 自动 分 配给 现 有 














































































































聚 类 的 噪声 点 。 在 基于 工作 缺勤 数据 集 的 示例 中 ， 我 们 已 经 展示 了 如 何 选择 超 参 数 以 便 获 
得 具有 最 小 噪声 点 数 、 可 接受 的 轮廓 或 Calinski-Harabasz 分 数 所 需 的 聚 类 数量 。 

















在 最 后 一 部 分 ， 我 们 分 析 了 K-medoids 作为 K-means 的 替代 方案 ， 它 对 于 蜡 常 值 也 更 
可 靠 。 该 算法 不 能 用 于 解决 非 凸 问题 ， 但 是 比 K-means 更 有 效 ， 因 为 它 不 是 选择 实际 均值 























作为 质心 ， 而 是 仅 依 赖 数据 集 ， 并 且 聚 类 中 心 〈 称 为 medoid) 是 示例 样本 。 此 外 ， 该 算法 








没有 严格 遵循 欧 氏 度量 ， 因 此 它 可 以 充分 利用 替代 昌 
































E 离 函数 的 潜力 。 最 后 一 个 主题 涉及 两 
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个 联机 聚 类 算法 (Mini-batch K-means 和 BIRCH)， 当 数据 集 太 大 且 无 法 放 入 内 存 或 数据 在 
长 时 间 范 围 内 以 流 


层次 结构 ， 人 允许 我 们 观察 完整 的 3 











在 第 4 章 中 ， 


3.8 ”问题 


€ 


























式 传输 时 ， 可 以 使 用 这 两 种 算法 。 

















我 们 将 要 分 析 一 个 非常 重要 的 聚 类 算法 系列 ， 这 些 算法 可 以 输出 完整 的 














聚合 过 程 ， 并 选择 最 有 用 和 最 一 致 的 最 终 配 置 。 


到 全 芝 


1. 半月 形 的 数据 集 是 凸 聚 类 吗 ”? 























2. 二 维 数据 集 由 两 个 半月 形 的 数据 集 组 成 ， 第 二 个 完全 包含 在 第 一 个 的 凹陷 中 ， 哪 种 
内 核 可 以 轻易 地 分 离 这 两 个 聚 类 〈 使 用 谱 聚 类 ) ? 
3. 在 应 用 s= 1.0 的 DBSCAN 算法 后 ， 我 们 发 现 有 太 多 的 噪声 点 。 我 们 应 该 期 望 修正 














=0.1 吗 ? 


4. K-medoids 


5. DBSCAN 对 数据 集 的 几何 
6. 数据 集 包 含 了 1000 万 个 样 




















个 






































基于 欧 氏 度量 ，] 




















E 确 吗 ? 





形态 非常 敏感 ， 正 确 吗 ? 
FE 本 ， 可 以 使 用 KK-means 通过 大 型 计算 机 轻松 进行 聚 类 























那 我 们 可 以 使 用 Mini-batch K-means 通过 小 型 计算 机 实现 吗 ? 




















. 聚 类 的 标准 差 等 于 1.0。 在 应 用 了 噪声 NM(0,0.005) 后 ，80% 的 原始 分 配 被 改变 了 。 我 





种 聚 类 





配置 是 稳定 的 吗 ? 


次 聚 类 


U 40 
机油 四 轴 轴 罗 加 吕 轴 中田 顺 四 时 





在 本 章 中 ， 我 们 将 从 与 数据 集 等 效 的 单个 聚 类 (分 裂 方 法 ) 或 多 个 聚 类 开始 ， 讨 论 层 















































的 概念 ， 这 是 一 种 强大 且 广 泛 的 技术 ， 用 于 生成 完整 的 聚 类 配置 层次 结构 。 聚 类 等 






































于 样本 数量 凝聚 法 )， 当 需要 一 次 性 分 析 整 个 分 组 过 程 以 便 理解 如 何 将 较 小 的 聚 类 合并 为 


较 大 的 


4.1 


了 > 
聚 类 


时 ， 此 方法 特别 有 用 。 
































本 章 将 着 重 讨论 以 下 主题 。 


层次 聚 类 策略 〈 凝 聚 和 分 裂 )。 











ED 




















凝聚 聚 类 。 





E 离 度量 和 连接 方法 。 


树 状 图 及 其 解释 。 











同 表 型 相关 性 
连通 性 约束 。 








E 系 数 作 为 一 种 性 能 指标 。 


技术 要 求 


本 章 中 的 代码 需求 如 下 。 


Python 3.5+ (强烈 推荐 Anaconda 发 行 版 )。 


库 。 








m SciPy 0.19+。 


@ NumPy 1. 


10+。 
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m SClklt-learn 0.20+。 


m pandas 0.22+。 


m Matplotlib 2.0+。 


m Seaborn 0.9+。 





数据 集 可 以 通过 UCI 数据 集 获得 























示例 代码 可 在 本 书本 











4.2” 聚 类 层次 结构 











在 前 几 章 中 ， 我 们 分 析 了 聚 类 算法 ， 其 中 输出 的 是 基于 预定 义 的 聚 类 数量 或 参数 集 、 


， 除 了 在 加 载 阶段 添加 列 名 外 ， 不 需要 任何 预 处 理 。 
b 套 的 代码 包 获 得 。 



































精确 基础 几何 结果 的 单个 分 段 。 另 一 方面 ， 层 次 聚 类 生成 一 系列 聚 类 配置 ， 这 些 配置 可 以 
排列 在 树 状 结构 中 。 特 别 地 ， 我 们 假设 有 一 个 包含 n 个 样本 的 数据 集 义 : 

















X= 人 








ey a m 
‘,X,} where x, eR 


凝聚 算法 首先 将 每 个 样本 分 配给 一 个 聚 类 C;， 然 后 在 每 个 步 又 中 合并 两 个 聚 类 ， 直 到 











在 前 面 的 式 子 中 ， 聚 类 C; 和 GC; 合 并 为 C:， 因 此 在 第 二 步 中 获得 n-1 个 聚 类 。 该 过 程 
将 继续 进行 ， 直 到 剩余 的 两 个 聚 类 合并 为 包含 整个 数据 集 的 单个 块 。 而 分 裂 算 法 《最初 





生成 一 个 最 终 聚 类 (对 应 于 了 X): 


(C1, CC 一 (Ci,C2»° ,OC ? 
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C, 


2- 


Cj Co, C1) 全 (四 

































































Kaufman 和 Roussew 提出 ， 称 为 DIANA 算法 ) 操作 方向 相反 ， 从 对 开 始 ， 并 以 每 个 聚 类 
包含 单个 样本 的 分 段 为 结束 : 




















(之 (Ch 全 (CC 











Ci … 人 一 …(CuC CN) 


j+13 














在 这 两 种 情况 下 ， 结 果 都 是 以 层次 结构 的 形式 出 现 的 ， 其 中 每 个 级 别 是 通过 在 前 一 级 









































别 执行 合并 或 拆 分 操作 而 获得 的 。 复 杂 度 是 两 种 算法 之 间 的 主要 区 别 ， 因 为 分 裂 聚 类 复杂 
度 相 对 更 高 。 实 际 上 ， 合 并 / 拆 分 的 决定 是 通过 考虑 所 有 可 能 的 组 合并 通过 选择 最 合适 的 组 











合 〈 根 据 特定 标准 ) 来 做 出 的 。 






























































佳 分 割 更 容易 。 





虽然 最 终结 果 几 乎 相同 ， 但 












































例如 在 比较 第 一 步 时 ， 需 要 考虑 指数 复杂 性 ， 很 
有 可 能 的 组 合 〈 在 分 裂 场景 中 ) 里 找到 最 合适 的 几 个 样本 在 凝聚 场景 中 ) 比 找到 式 的 最 









































ID 





明显 在 所 

















分 裂 算 法 的 计算 复杂 度 要 高 得 多 ， 所 以 一 般 来 说 ， 我 们 没 
有 特别 的 理由 选择 这 种 方法 。 因 此 ， 在 本 书 中 ， 我 们 将 仅 讨论 凝聚 聚 类 〈 假 设 所 有 概念 都 
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立即 适用 于 分 裂 算 法 )。 我 鼓励 读者 始终 考虑 整个 层次 结构 ， 即 使 大 多 数 实现 例如 
scikit-learn) 都 需要 指定 所 需 的 聚 类 数量 。 事 实 上 ， 在 实际 应 用 程序 中 ， 我 们 最 好 在 达到 目 
标 后 停止 进程 ， 而 不 是 计算 整个 树 。 但 是 ， 此 步骤 是 分 析 阶 段 的 一 个 重要 部 分 《特别 是 当 
未 明确 定义 聚 类 数量 时 )， 我 们 将 演示 如 何 可 视 化 树 并 为 每 个 具体 问题 做 出 最 合理 的 决策 。 
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正如 在 其 他 算法 中 所 见 ， 为 了 执行 聚合 ， 我 们 首先 需要 定义 一 个 表示 样本 之 间 差 异 的 




































































参数 p 表示 ) 是 有 帮助 的 : 


1 
二 二 一 (一 ( 和 
| = 站 
大 


两 种 特定 情况 对 应 于 p = 2 和 p = 1。 当 p = 2 时 ， 我 们 得 到 标准 的 欧 氏 距离 〈 相 当 于 
亡 范 数 ): 





2 
d,(%,X)) = > , = 上 | Xi Xj | 


天 








当 p= 1 时 ， 我 们 获得 曼哈顿 或 城市 街区 距离 〈 相 当 于 Z 范 数 ): 


一 一 k (k 
di(X,X,) => | x : Xx) , |=||% Xx; | 
大 




















这 些 距离 之 间 的 主要 差异 在 第 2 章 中 进行 了 讨论 。 在 本 章 中 , 引入 余弦 距离 是 有 用 的 ， 
虽然 这 不 是 距离 度量 (从 数学 的 角度 来 看 ), 但 是 当 样 本 之 间 的 区 分 必须 取决 于 它们 形成 的 
角度 时 ， 这 就 非常 有 用 了 : 















































i Se | bl B CosCX) 
| | x ll; | | zx; | 
余弦 距离 的 应 用 非常 特殊 , 例如 自然 语言 处 理 (Natural Language Processing, NLP)， 
因此 ， 它 不 是 常见 的 选择 。 但 是 ， 我 建议 读者 使 用 一 些 样 本 向 量 检查 其 属性 (例如 (0,1)、 
《10) 和 (0.5,0.5)， 因 为 它 可 以 解决 许多 现实 问题 (例如 在 Word2vec 模型 中 ， 通 过 检查 两 
个 词 的 余弦 相似 性 ， 可 以 很 容易 地 评估 它们 的 相似 性 )。 一旦 定义 了 距离 度量 ,就 有 助 于 定 
义 近邻 矩阵 P: 





=1—cos(Xx,) 













































































er) 
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尸 是 对 称 的 ， 并 且 所 有 对 角 线 元 素 都 为 空 。 由 于 这 个 原因 ， 一 些 应 用 程序 〈 例 如 SciPy 
的 函数 pdist0) 生成 一 个 压缩 矩阵 已 ， 它 是 一 个 仅 包含 矩阵 的 上 三 角形 部 分 的 向 量 ， 因 此 
PP 的 第 i 行 第 j 列 元 素 对 应 于 d(xi, x))。 

下 一 步 是 定义 合并 策略 ， 在 这 种 情况 下 ， 称 为 链 (Linkage)。 连 锁 方法 的 目标 是 找 出 
在 层次 结构 的 每 个 级 别 合 并 为 单个 的 聚 类 。 因 此 ， 它 必须 与 表示 聚 类 的 通用 样本 集 一 起 使 
用 。 在 这 种 情况 下 ,假设 我 们 正在 分 析 一 对 聚 类 Cs，C,)， 我 们 需要 找到 索引 a 还 是 b 对 
应 将 要 合并 的 一 对 。 


4.3.1 单一 链 和 完整 链 


最 简单 的 方法 是 单一 链 (Single Linkage)〉 和 完整 链 (Complete Linkage)。 单 一 链 的 
定义 如 下 : 









































































































































Li ge (QP) = min{d (x,X,) VE C, 卓志 C,} Y CC 


单一 链 选择 包含 最 接近 一 对 样本 的 耦合 〈 每 个 样本 属于 不 同 的 聚 类 )。 此 过 程 如 图 4-1 
所 示 ， 其 中 选择 Cl 和 C2 进行 合并 。 























Cs 





C2 








图 4-1 选择 Cl 和 C 进行 合并 的 单一 链 示例 

此 方法 的 主要 缺点 是 小 型 聚 类 和 非常 大 型 的 聚 类 可 能 同时 出 现 。 正 如 我 们 将 在 下 文中 
看 到 的 ， 单 一 链 可 以 将 异常 值 隔离 ， 直 到 存在 非常 高 的 差异 。 为 了 避免 这 个 问题 ， 我 们 可 
以 使 用 平均 链 和 Ward 链 。 
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相反 ， 完 整 链 定 义 如 下 : 
(a,b)=max{d(%,x,) Vi eC, Hx eC,} VC,,C, 
个 已 选择 Cl 和 Cs3 的 




















并 聚 类 中 的 最 远 样 本 之 间 的 距离 。 


























该 方法 的 目标 是 最 小 化 合 
完整 链 示 例 ， 如 图 4-2 所 示 。 
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行 合并 的 完整 链 示例 















































图 4-2 选择 CI 和 Cs3 进 
该 算法 选择 Cl 和 C3 以 提高 内 聚 力 。 实 际 上 考虑 到 所 有 可 能 的 组 合 ， 很 容易 理解 完整 
链 会 导致 聚 类 密度 最 大 化 。 在 图 4-2 所 示 的 示例 中 ， 如 果 所 需 的 聚 类 数 为 2， 则 合并 Ci 和 
CG 或 Cs, 和 Cs 将 产生 具有 较 低 


4.3.2 平均 链 
另 一 种 常用 方法 称 为 平均 链 (Average Linkage) 或 具有 算术 平均 值 的 非 加 权 对 组 方法 

















内 聚 力 的 最 终 配 置 ， 这 通常 是 不 希望 得 到 的 结果 。 








(Unweighted Pair Group Method with Arithmetic Mean，UPGMA)。 它 的 定义 如 下 : 


Days 7 a) WnG 
colo 安吉 


这 个 方法 与 完整 链 非常 相似 ,但 这 种 方法 考虑 的 是 所 有 可 能 的 对 (Cs。，Cs)， 且 每 个 聚 
聚 类 间 平 均 距离 。 平 均 链 示 例如 图 4-3 所 示 。 


径 大 



































类 的 平均 值 也 被 考虑 在 内 ， 目 标 是 最 小 化 
平均 链 在 生物 信息 学 应 用 中 特别 有 用 〈 这 是 定义 层次 聚 类 的 主要 背景 )。 它 的 数学 解释 是 
非常 重要 的 ， 我 建议 你 查看 原始 论文 (4 Statistical Method for Evaluating Systematic Relationships ) 












































以 获取 更 多 详细 信息 。 
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Cs 


Ci 



































示 的 点 是 平均 值 ) 进行 合并 的 平均 链 示例 











是 





y 





图 4-3 选择 Cl 和 C,〈 突 


4.3.3 Ward 链 





我 们 要 讨论 的 最 后 一 种 方法 称 为 Ward 链 (以 作者 的 名 字 命 名 ， 最 初 在 Journal of the 
American Statistical Association 的 Hierarchical Grouping to Optimize an Objective Function 中 


被 提出 )。 它 基于 欧 氏 距离 ， 正 式 定义 如 下 : 


Lyaa (a,b) = > > | 一 2 | VO,,C, 


CG XieCp 





在 每 个 级 别 ，Ward 链 都 会 考虑 所 有 聚 类 ， 并 且 选 择 其 中 两 个 聚 类 ， 目 的 是 最 小 化 平方 距 
离 的 总 和 。 该 过 程 本 身 与 平均 链 并 没有 太 大 差别 ， 并 且 可 以 证 明 合并 过 程 导 致 聚 类 的 方差 减 小 
( 即 增加 其 内 部 内 聚 力 )。 此 外 ，Ward 链 倾向 于 产生 包含 大 致 相同 数量 样本 的 聚 类 《〈 也 就 是 说 ， 
与 单一 链 相 比 ，Ward 的 方法 避免 了 小 聚 类 和 非常 大 的 聚 类 的 存在 )。Ward 链 是 一 种 流行 的 默 
认 选 择 ， 但 是 为 了 在 每 个 特定 的 环境 中 做 出 正确 的 选择 ， 我 们 有 必要 引入 树 状 图 的 概念 。 


4.4 树 状 图 分 析 








































































































树 状 图 (Dendrogram ) 是 一 种 树 形 数据 结构 ， 它 可 以 表示 由 凝聚 算法 或 分 裂 算法 产生 的 
整个 聚 类 层次 结构 。 其 思想 是 将 样本 放 在 x 轴 上 , 将 差异 度 放 在 y 轴 上 。 每 当 合 并 两 个 聚 类 时 
树 状 图 就 会 显示 出 一 个 对 应 于 其 发 生 的 差异 度 级 别 的 连接 。 因 此 ， 在 凝聚 方案 中 ， 树 状 图 总 
从 所 有 被 视 为 聚 类 的 样本 开始 并 向 上 移动 〈 方 向 完全 是 常规 的 )， 直 到 定义 单个 聚 类 为 止 。 
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出 于 教学 目的 ， 我 们 最 好 展示 与 非常 小 的 数据 集 筷 相对 应 的 树 状 图 ， 但 是 我 们 要 讨论 
的 所 有 概念 都 可 以 应 用 于 任何 情况 。 然 而 ， 对 于 较 大 的 数据 集 ， 我 们 通常 需要 应 用 一 些 截 
断 ， 以 便 以 更 紧凑 的 形式 显示 整个 结构 。 

让 我 们 考虑 一 个 小 数据 集 闷 由 4 个 高 斯 分 布 生成 的 12 个 三 维 样本 组 成 ,平均 向量 在 
(--1,1) x (-11) 范围 内 : 


















































from sklearn.datasets import make blobs 


nb samples = 12 
nb centers = 4 





X, Y = make blobs(n samples=nb samples, n features=2, center box=[-1, 1], 
centers=nb centers, random state=1000) 





树 状 图 分 析 数 据 集 〈 带 标签 ) 如 图 4-4 所 示 。 
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图 4-4” 树 状 图 分 析 数 据 身 

















A 























为 了 生成 树 状 图 (使 用 SciPy)， 我 们 首先 需要 创建 一 个 连锁 矩阵 。 在 这 种 情况 下 ， 我 
们 选择 了 Ward 链 的 欧 氏 度量 (但 是 , 像 往常 一 样 , 我 鼓励 大 家 使 用 不 同 的 配置 进行 分 析 ): 









































from scipy.spatial.distance import pdist 
from scipy.cluster.hierarchy import linkage 





dm = pdist(X, metric='euclidean') 
2 = linkage (dm, method='ward') 
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数组 dm 是 一 个 精简 的 成 对 距离 矩阵 , 而 Z 是 由 Ward 方法 生成 的 连锁 矩阵 (函数 linkage0 
需要 参数 method， 其 中 接受 值 single、complete、average 和 ward)。 此 时 ， 我 们 可 以 生成 并 绘 
制 树 状 图 《函数 dendrogram0O 可 以 使 用 默认 或 提供 的 Matplotlib 的 axis 对 象 自动 绘制 图 表 ): 


import matplotlib.pyplot as plt 


























from scipy.cluster.hierarchy import dendrogram 
fig, ax = plt.subplots (figsize=(12, 8)) 
d = dendrogram(Z, show leaf counts=True, leaf font size=14, ax=ax) 


ax.set xlabel('Samples', fontsize=14) 
ax.set yticks (np.arange (0, 6, 0.25)) 


plt.show() 


对 应 的 树 状 图 如 图 4-5 所 示 。 














Samples 

图 4-5 ”应 用 于 数据 集 的 Ward 连接 距离 法 相对 应 的 树 状 图 
如 图 4-5 所 述 , x 轴 表 示 最 小 化 交叉 连接 风险 的 样本 ,而 y 轴 显 示 的 是 差异 度 级 别 。 现 

在 让 我 们 从 下 到 上 分 析 图 表 。 初 始 状态 对 应 于 被 视 为 独立 聚 类 的 所 有 样本 《因此 差异 度 为 
0)。 向 上 移动 ， 我 们 开始 观察 第 一 次 合并 。 特 别 地 ， 当 差异 度 约 为 0.35 时 ， 合 并 样品 1 和 3。 
第 二 次 合并 是 样本 0 和 9 被 合并 , 其 差异 度 略 低 于 0.5。 该 过 程 一 直 持 续 到 创建 单个 聚 
类 ， 此 时 差异 度 大 约 为 5.25。 现 在 让 我 们 在 差异 度 等 于 1.25 时 水 平 剖析 树 状 图 ， 查 看 基础 

















































































































连接 ， 我 们 发 现 聚 类 双 
因此 , 我 们 有 5 个 
的 样本 不 足 为 奇 ， 因 为 它们 离 其 他 的 样本 很 远 。4 个 不 同 的 级 别 下 的 



























































很 容易 理解 ， 聚集 开 始 于 选择 
直到 到 达 树 的 根部 。 在 这 
的 聚 类 。 左 边 一 个 也 保留 在 下 一 个 切口 
产生 单个 聚 类 。 这 个 过 程 本 身 很 简单 ， 不 需要 特别 
第 一 个 是 树 状 图 结构 本 身 固有 的 。 与 其 他 方法 不 同 的 是 ， 层 次 
， 当 需要 通过 增加 差异 度 来 显示 过 程 如 何 发 展 时 ， 这 样 的 特 和 
点 用 程序 无 法 提供 有 关 代表 用 
解 合 并 过 程 的 结构 和 发 展 。 

事实 上 ， 通 过 观察 
以 发 现 哪些 聚 类 可 能 被 视 为 较 大 聚 类 的 一 部 分 。 
个 小 聚 类 {1,3}。 问 题 
12} 回 答 。 当 然 ， 在 这 种 4 
决 ， 但 是 对 于 高 维 数 据 















































六 莹 















































样本 的 聚 类 用 圆圈 标记 )， 如 图 4-6 所 示 。 


Level 0.5 (10 clusters) 








图 4-6 在 不 同 级 别 切割 树 状 民 












































吉 构 是 : {6}，1{7,5,8}，{0,9,4,10}，{11}，{2,1,3}。 
单个 样本 组 成 。 观 察 到 样本 6 和 11 是 最 后 要 合并 


聚 类 《〈 只 有 包含 多 个 


生成 的 聚 类 (Ward 链 ) 


# 本 ,然后 是 通过 添加 邻近 样本 来 进行 处 理 ， 
检测 到 3 个 明确 定义 
h， 而 右边 的 两 个 明显 更 接近 被 选择 用 于 合并 以 
的 解释 ， 但 有 两 个 


列子 中 ， 在 相似 度 等 于 2.0 的 情 ; 
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Level 3.5 (2 clusters) 
































要 的 考虑 因素 。 


P 许 观察 整个 聚 类 



































。 例 如 产品 推荐 



































数量 的 任何 信息 ,Tf 

















全 理 层 可 能 有 兴趣 了 



















































































结果 表明 ，i 





如 何 合并 的 ， 我 们 可 以 深入 了 解 底层 的 
在 我 们 的 示例 中 ， 在 0.5 级 时 ， 我 们 有 一 
过 增加 差异 度 可 以 将 哪些 样本 添加 到 此 聚 类 中 ? ”可 以 立即 用 
况 下 ， 这 是 一 个 微不足道 的 问题 ， 我 们 可 以 通过 查看 数据 图 来 解 
集 ， 如 果 没 有 树 状 图 
第 二 个 是 树 状 图 可 以 比较 不 同 连 接 方法 的 行为 。 使 用 Ward 链 ， 第 一 次 合并 发 生 在 相当 低 
的 差异 度 ， 但 $ 个 聚 类 


的 支持 ， 观 察 可 


国 | 


和 3 个 聚 类 之 间 存 在 很 大 差距 。 








果 我 们 使 用 单一 链 《〈 本 质 上 非常 不 同 ) 会 发 生 什么 ? 对 应 的 树 状 图 如 民 


几何 结构 ， 并 且 还 可 




























































































玄 树 状 图 是 不 对 称 的 ， 并 且 聚 类 通常 与 上 

















各 的 结果 。 例 如 如 


4-7 所 示 。 
个 样本 或 小 的 聚集 体 合并 。 从 石 





边 开 始 ， 我 们 可 以 看 到 样本 {1H} 和 {6} 很 晚 才 合并 。 此 外 ， 当 必须 生成 最 终 的 单个 聚 类 时 ， 


样本 {6}《〈 可 能 是 











异常 值 ) 以 最 高 的 差异 度 合并 。 在 不 同 级 别 切割 树 状 图 生成 的 聚 类 的 过 程 
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如 图 4-8 所 示 。 
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Samples 
图 4-7 应 用 于 数据 集 的 单一 链 对 应 的 树 状 图 














Level 0.5 (10 clusters) Level 0.75 (7 clusters) Level 1.0 (4 clusters) Level 1.5 (2 clusters) 
日 = 











图 4-8 ”在 不 同 级 别 切割 树 状 图 生成 的 聚 类 (单一 链 》) 


从 图 4-8 可 以 看 出 ， 虽 然 Ward 链 生 成 了 包含 所 有 样本 的 两 个 聚 类 ， 但 是 单一 链 在 1.5 
级 通过 将 潜在 的 异常 值 保持 在 外 部 来 聚合 最 大 聚 类 。 因 此 ， 树 状 图 还 允许 定义 聚合 语义 ， 
这 在 心理 测量 学 和 社会 学 背景 中 非常 有 用 。 虽 然 Ward 链 以 一 种 与 其 他 对 称 算 法 非常 相似 的 
方式 进行 ， 但 单一 链 有 一 种 阶梯 式 循序 渐进 的 方式 ， 它 显示 了 对 增 量 构建 的 聚 类 的 偏好 ， 
从 而 避免 了 差异 度 方面 的 较 大 差距 。 

最 后 ， 值 得 注意 的 是 ， 虽 然 通过 在 3.0 级 切割 树 状 图 ，Ward 链 产生 了 潜在 的 最 佳 聚 类 
数 (3 个 )， 但 单一 链 从 未 达到 这 样 的 配置 〈 因 为 聚 类 {6} 仅 在 最 后 一 步 中 合并 )。 这 种 效果 
与 最 大 分 离 和 最 大 内 聚 的 双重 原则 密切 相关 。Ward 链 往 往 很 快 找到 最 内 聚 和 最 分 离 的 聚 
类 。 它 允许 当 差 异 度 间 隙 克服 预定 义 六 值 (当然 ， 当 达到 所 需 数量 的 聚 类 时 时 切割 树 状 
图 ， 而 其 他 链 需 要 不 同 的 方法 ， 有 时 会 产生 不 需要 的 最 终 配置 。 








































































































































































































考虑 到 问题 的 性 质 ， 我 总 是 鼓励 读者 测试 所 有 的 链 方法 的 行为 ， 并 找 出 适 
民 据 教育 水 平 、 入 住 率 和 收入 对 一 个 国家 的 人 口 i 合 
是 增强 意识 ， 并 提高 过 程 语义 解释 能 力 的 最 佳 方 法 (这 是 任何 








场景 例如 
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合 某 些 示例 
行 细 分 ) 的 最 合适 方法 。 这 
聚 类 过 程 的 基本 目标 )。 


























4.5 同 表 型 相关 性 系数 作为 一 种 性 能 指标 

















我 们 可 以 使 











前面 章节 




















介绍 的 任何 方法 来 评估 层次 
我 们 可 以 采用 特定 措施 〈 不 需要 基本 事实 )。 给 定 一 个 邻近 外 








聚 类 性 能 ， 但 在 此 特定 情况 下 ， 
E 阵 已 和 连接 工 ， 一 对 样本 xi， 








XjEX 总 是 被 分 配给 特定 分 层级 别 的 同一 聚 类 。 当 然 ， 务必 要 记 住 ,在 凝聚 的 情况 下 ,我 们 


从 半 个 不 同 的 聚 类 开始 ， 





考虑 到 4.4 节 中 显示 的 第 一 个 树 状 图 ， 样 本 {1} 和 {3} 先 被 合 3 
































最 终 得 到 一 个 等 同 于 孔 的 聚 类 。 此 外 ， 当 两 个 合并 的 聚 类 变 成 单 
个 聚 类 时 ， 属 于 聚 类 的 两 个 样本 将 始终 属于 同一 变 大 的 聚 类 ， 














直到 该 过 程 结束 。 





























; 然后 添加 样本 {2}， 最 








后 是 {11}。 此 时 ， 整 个 聚 类 与 另 一 个 大 案 类 合并 (包含 样本 {0}，{9}，{4}，{10} )。 在 最 








后 一 级 ， 合 3 
































剩余 的 样本 以 形成 单个 最 终 聚 类 。 因 此 ， 命 名 差异 度 级 别 DLo，DLI，… ， 





DLi， 样 本 {1} 和 {3} 在 DZI 处 开始 属于 同一 聚 类 ， 而 12} 和 { 则 出 现在 DZ 的 同一 个 聚 类 中 。 














CP =[DD] 


y 


此 时 , 我 们 可 以 将 DLjy 定 义 为 x; 和 ww 首次 属于 同一 聚 类 的 差异 度 级 别 , 并 且 在 以 下 (n x 


n) 和 矩阵 中 表示 为 CP 的 同 表 型 矩阵 (Cophenetic Matrix ): 








换 句 话说 ，CPy 元 素 是 观察 同一 聚 类 中 的 x; 入 所 需 的 最 小 差异 。 我 们 可 以 证 明 CP 


是 x 和 x 之 间 的 距离 度量 ， 





所 有 对 角 元 素 都 为 空 )。 特别 地 , 我 们 对 它们 的 相关 性 




















因此 ，CP 类 似 于 P， 并 且 它 
































共有 与 邻近 矩阵 相同 的 属性 (例如 








咸 久 


人 心 MA ~、 





趣 (在 -1 和 1 的 范围 内 标准 化 )。 











此 值 为 同 表 型 相关 性 系数 (Cophenetic Correlation Coefficient，CPC)， 表 示 P 和 CP 之 间 











的 一 致 性 水 平 ， 并 











可 以 轻松 计算 ， 如 以 下 等 式 所 示 。 














由 于 PP 和 CP 都 是 具有 








包括 对 角 线 3 











2 


n(n—1) (i,)) eTril(P) 


标准 化 平方 和 值 如 下 : 
2 























n(n—l) (i,)) eTril(P) 


零 对 角 元 素 的 (nxn) 对 称 和 矩阵 , 因 














表示 为 Hii(*))， 包 含 n(n-1)/2 个 值 。 因 此 ， 习 


PCG, 旋 且 CP = 


PGi,))* -PH SCP= 2 








此 可 以 仅 考虑 下 三 角 部 分 (不 
均值 如 下 : 


CPQi,)) 


n(n—l) (i,)) eTril(CP) 


CPG, 7 -Cp 


n(n— Ju eTril(CP) 
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因此 ， 归 一 化 的 同 表 型 相关 性 系数 仅 等 于 以 下 内 容 : 


CPC 


2 


n(n—1) 2 cp Pls) ‘CP, ND-PCP 











前 面 的 方程 基于 如 























口 


男 一 方面 ，CPC 一 -1 则 表示 完全 不 同 且 与 几何 体形 状 不 一 致 和 





理 地 期 望 x; 入 将 在 x; 和 x 之 前 合并 在 同一 
入 合并 的 差异 度 )。 因 此 ，CPC 一 1 表示 链 生 成 最 佳 层次 结 


VSP:SCP 








个 聚 


聚 类 中 〈 即 
































给 定 一 个 问题 ， 我 们 的 目标 是 找到 一 个 最 大 化 CPC 的 指标 和 链 。 





























































































































下 假设 : 如 果 3 个 样本 x、xw 和 x, 具 有 诸如 dc z)<dCc xy) 的 距离 ， 
Xi 和 x 合并 的 差异 度 低 于 xi 
为 ， 这 反映 了 基 而 
潜在 聚 类 结果 。 不 言 而 喻 ， 


1 几何 形状 。 


















































考虑 到 第 3 章 中 描述 的 示例 , 我 们 可 以 使 用 SciPy 的 函数 cophenet() 计 算 对 应 于 不 
同 链 〈 假 设 欧 氏 距 离 ) 的 同 表 型 矩阵 和 CPC。 此 函数 需要 连锁 矩阵 作为 第 一 个 参数 ， 
邻近 和 矩阵 作为 第 二 个 参数 ， 并 返回 同 表 型 矩阵 和 CPC (变量 dm 是 先前 计算 的 压缩 邻近 
矩阵 ): 

from scipy.cluster.hierarchy import linkage, cophenet 

cpc, cp = cophenet (linkage (dm, method='ward'), dm) 

print('CPC Ward\'s linkag {3E}" format (Cpe)) 

cpc, cp = cophenet (linkage (dm, method='single'), dm) 

print('CPC Single linkage: {:.3f}'.format (cpc)) 

cpc, cp = cophenet (linkage (dm, method='complete'), dm) 

print('CPC Complete linkage: {:.3f}'.format (cpc)) 

cpc, cp = cophenet (linkage (dm, method='average'), dm) 

print('CPC Average linkage: {:.3f}'.format (cpc)) 

此 代码 段 的 输出 如 下 所 示 ; 

CPC Ward's linkage: 0.775 

CPC Single linkage: 0.771 

CPC Complete linkage: 0.779 

CPC Average linkage: 0.794 

这 些 值 非常 接近 ， 表 明 所 有 关联 都 产生 了 相当 不 错 的 结果 (即使 由 于 存在 两 个 异常 值 
而 不 是 最 优 的 )。 但 是 ， 如 果 我 们 需要 选择 一 种 方法 ， 那 么 平均 链 是 最 准确 的 ， 应 优先 于 其 
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出 方 法 〈 如 果 没 有 特定 原 


























因 需 要 跳 过 它 )。 








司 表 型 相关 性 系数 是 层次 聚 类 特有 的 评估 指标 ， 它 
何 图 形 更 复杂 时 ，CPC 值 可 能 会 误 
标 ( 例 如 轮廓 分 数 或 调 


4.6 








整 后 的 兰 德 分 数 )， 





水 处 理 厂 数据 集 的 凝聚 聚 类 


导 并 导致 次 优 配置 。 


4.6 水 处 至 




















[a| 
[| 


E 厂 数据 集 

















的 凝聚 聚 类 
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可 靠 的 结果 。 




















以 便 仔 细 检 查 ! 





~ 

















对， 我 建议 使 月 
最 合适 的 选择 。 








但 是 ， 当 几 


其 他 指 





现在 让 我 们 考虑 一 个 更 详细 的 问题 ， 关 于 一 个 更 大 的 数据 集 (下载 说 明 在 本 章 4.1 节 提 

















供 )， 二 
(Bejar、 








日 :了 邓 
不 坦 们 
































中 包含 


考虑 数据 集 的 几何 结构 和 


下 载 完 后 ，CSYV 文件 〈 称 为 water-treatment.data) 可 以 使 
更 改 术语 <DATA_PATH> 以 指向 文件 的 确 
有 其 他 值 都 是 数字 ， 可 以 转换 为 float 64。 缺 失 值 用 


527 个 样本 ， 用 38 个 化 学 和 物理 
Cortes 和 Poch) 所 述 ， 该 域 的 结构 不 好 ， 需 要 
过 不 可 知 论 的 方法 找到 最 佳 阳 
域 专家 )， 而 只 





we 子 耳 又 从 





























雪耻 

















切 位 置 )。 第 








他 信息 ， 每 个 属 





| 




















只 


性 只 








] 平 均值 进行 设置 ， 



































import pandas as pd 


data path = 























4 人 ?9 


变量 描述 了 水 处 理 1 
要 仔细 分 析 。 与 此 同时 ， 我 们 的 
案 类 。 换 句 话 说 ， 我 们 不 会 考虑 语义 标注 过 程 ( 这 


法 发 现 的 关系 。 











的 状态 。 









































字符 表示 。 由 








'<DATA PATH>/water-treatment.data' 





df = pd.read csv(data path, header=None, index col=0, 


na values="'?') 


.astype (np.float64) 


df.fillnal(df.mean(), inplace=True) 











由 于 单个 变量 
因此 最 好 在 范围 
































时 的 大 小 不 同 〈 我 建议 大 家 使 





























(=-1,1) 中 对 它们 进行 标准 化 ， 从 而 保留 原始 方差 : 


from sklearn.preprocessing import StandardScaler 


ss = StandardScaler (with std=False) 


sdf 





此 时 像 往 常 一 样 ， 我 们 可 以 使 


from sklearn.manifold import TSNE 


tsne 


TSNE 


ss.fit transform(df) 








(n_components=2, 


用 tSNE 复 























法 将 数据 集 





perpl 


投影 到 二 维 空 间 : 


xity=10, random state=1000) 


了 


E 如 作者 
目标 


文 需要 领 




















pandas 加 载 〈 当 然 ， 必 须 
一 列 是 与 特定 工厂 相关 的 索引 ， 
于 我 们 没有 任何 其 


而 所 








DataFrame 上 的 函数 describeO 检 查 此 语句 )， 
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data tsne = tsne.fit transform(sdf) 


df tsne = pd.DataFrame (data tsne columns=['x', 'y'], index=df.index) 


dff = pd.concat ([df, df tsne], axis=1) 


水 处 理 厂 数据 集 的 tSNE 图 如 图 4-9 所 示 。 
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该 图 显示 了 一 个 潜在 的 非 凸 几何 体 ， 





其 中 许多 小 岛 〈 密 集 区 域 ) 被 空间 隔 开 。 但 是 











XE， 





如 果 没 有 任何 域 信 息 ， 就 很 x 


确定 哪些 斑点 可 以 被 视 为 同一 聚 类 的 一 部 分 。 我 们 可 以 决定 














施加 的 唯一 伪 约 束 《〈 考 虑 到 所 有 工厂 都 以 类 似 的 方式 操作 ) 














是 具有 中 等 或 少量 的 聚 类 。 因 





此 ， 假 设 欧 氏 距 离 并 使 用 scikit-learn 的 AgglomerativeClustering 类 ， 我 们 可 以 计算 基于 所 
有 链 以 及 4、6、8 和 10 个 聚 类 下 的 同 表 型 相关 性 和 轮廓 分 数 : 





import numpy as np 
from sklearn.cluster import AgglomerativeClustering 


from sklearn.metrics import silhouette score 





from scipy.spatial.distance import pdist 

from scipy.cluster.hierarchy import linkage, cophenet 
nb clusters = [4, 6, 8, 10] 

linkages = ['single', 'complete', ‘'ward', 'average'] 
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cpcs = np.zeros (shape=(len(linkages), len(nb clusters) ) ) 
silhouette scores = np.zeros (shape=(len(linkages), len(nb clusters))) 





for i, 1 in enumerate (linkages): 
for j, nbc in enumerate (nb clusters): 
dm = pdist(sdf, metric='minkowski', p=2) 
2 = linkage (dm, method=1) 
cpc, _ = cophenet (Z, dm) 
Ces[E; TJ] = pe 


ag = AgglomerativeClustering(n clusters=nbc, affinity='euclidean', 
linkage=1) 

Y pred = ag.fit predict (sdf) 

sls = silhouette score(sdf, Y pred, random state=1000) 


silhouette scores[i, j] = sls 











基于 不 同 数目 聚 类 和 4 种 链 方法 的 同 表 型 相关 性 和 轮廓 分 数 如 图 4-10 所 示 。 
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性 〈 左 ) 和 轮廓 分 数 〈 右 ) 





4-10 基于 不 同 数目 聚 类 和 4 种 链 方法 的 同 表 型 相关 


要 考虑 的 第 一 个 因素 是 ， 同 表 型 相关 性 对 于 完整 链 和 平均 链 是 合理 可 接受 的 ， 而 对 于 
单一 链 来 说 太 低 了 。 对 于 轮廓 分 数 ， 单 一 链 和 4 个 聚 类 实现 了 最 大 值 〈 约 0.6)。 该 结果 表 
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明 ， 恨 


完整 链 的 最 大 值 (以 及 单个 图 


Er 
需要 聚 类 ? 


中 的 内 部 问题 等 。 人 
我 1 
考 尺 





图 
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次 优 配置 ， 也 可 以 月 


0 4.5 节 所 述 ， 同 表 型 相关 性 有 时 
果 潜 在 聚 类 的 理论 数量 为 4， 则 使 月 



























































表 的 最 小 值 )。 因 1 
在 这 个 例子 中 , 假设 许多 工厂 以 非常 标准 
也 可 能 存在 一 些 特殊 情况 〈 不 了 









































E 确 的 异常 值 )， 可 能 表现 










































































到 数据 集 的 维 数 和 非 巴 
此 时 ， 我 们 还 可 以 分 析 截 断 到 80 个 叶子 



































的 方式 运行 许多 相 
非常 不 同 的 行为 。 

于 创新 或 实验 过 程 缺 乏 资源 、 测 量 过 程 
限 设 ， 但 是 ， 由 于 这 是 一 个 通用 示例 ， 
站 可 以 决定 保留 8 个 具有 完整 链 的 聚 类 〈 轮 廓 分 数 约 为 0.5)。 该 值 表示 存在 重 登 ， 但 是 
性 ， 在 许多 现实 情况 下 是 可 以 接受 的 。 


的 树 状 图 (这 可 以 通过 设置 tucate mode = 'lastp' 


等 或 高 水 平 的 内 到 力 分 离 4 个 区 域 。 
。 在 这 种 情况 下 ， 我 
选择 。 但 是 ， 所 有 


答 的 第 一 个 


门 可 以 得 出 结论 ， 如 
他 图 表 显 示 对 应 于 














问题 是 : 我 们 是 否 





本 共享 差异 )， 但 















































和 p= 80 来 实现 )， 以 避免 间隔 太 小 而 难以 



























































Samples (80 leaves) 

















区 分 (但 你 可 以 删除 该 约束 并 提高 分 辨 率 )， 如 


















































的 树 状 民 












































并 不 是 同 质 的。 在 该 过 和 


三 : 























开始 时 ， 差 异 度 增 加 得 相当 缓慢 ， 但 


50000 
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在 大 约 差异 度 为 10000 后 ， 跳 跃 变 大 。 观 察 tSNE 图 ， 我 们 可 以 理解 非 凸 性 对 非常 大 的 聚 
类 具有 更 强 的 影响 ， 因 为 密度 降低 ,所 以 差异 度 隐 式 地 增加 。 很 明显 ,非常 少量 的 聚 类 〈 例 
如 1、2 或 3) 具有 非常 高 的 内 部 差异 和 相当 低 的 内 聚 力 。 

此 外 ， 树 状 图 显示 在 约 17000 的 水 平 上 有 两 个 主要 的 不 均匀 聚合 ， 因 此 我 们 可 以 推断 
粗 粒度 分 析 突 出 显示 主导 行为 (从 顶部 看 图 )， 而 次 要 行为 则 被 少数 工厂 使 用 。 特 别 地 ， 较 
小 的 组 非常 稳定 ， 因 为 它 将 以 大 约 50000 左右 的 级 别 被 合并 到 最 终 的 单个 聚 类 。 因 此 ， 我 
们 应 该 期 望 存在 伪 异 常 值 ， 并 且 这 些 值 被 分 组 到 更 加 孤立 的 区 域 中 (t-SNE 图 也 证 实 了 这 

切割 范围 为 4000 = 6000《〈 对 应 于 大 约 8 个 聚 类 )， 较 大 的 块 比较 小 的 块 更 密集 。 换 名 
话说 ， 异 常 聚 类 将 包含 比 其 他 聚 类 少 得 多 的 样本 。 这 并 不 奇怪 ， 因 为 正如 在 4.4 节 中 所 讨 
论 的 ， 最 远 的 聚 类 通常 在 完整 链 的 后 期 被 合并 。 

此 时 ， 我 们 终于 可 以 执行 聚 类 并 检查 结果 。scikit-learn 的 实现 不 是 计算 整个 树 状 图 ， 
而 是 在 达到 所 需 聚 类 数 时 停止 进程 〈 除 非 参数 compute_full_tree 不 为 True): 


import pandas as pd 






































































































































































































































from sklearn.cluster import AgglomerativeClustering 


ag = AgglomerativeClustering(n clusters=n, affinity='euclidean', linkage= 
'complete') 
Y pred = ag.fit predict (sdf) 


df pred = pd.Series(Y pred, name='Cluster', index=df.index) 
pdff = pd.concat ([dff, df pred], axis=1) 




















最 终结 果 如 图 4-12 所 示 。 
正如 预期 的 那样 ， 聚 类 是 不 均匀 的 ， 但 它们 与 几何 体 是 完全 一 致 的 。 此 外 ， 孤 立 的 只 
类 例如 在 区 域 xe(-40,-20) 和 y> 60 中 ) 非常 小 并 且 它 们 很 可 能 包含 真正 的 异常 值 ， 其 
行为 与 其 他 大 多 数 样本 都 不 相同 。 我 们 不 打算 分 析 语 义 ， 因 为 问题 非常 具体 。 然 而 ， 我 们 
有 理由 认为 xe(-40,40) 和 ye(-40,-10) 区 域 中 的 大 聚 类 即使 是 非 凸 的， 也 代表 一 个 合适 的 
基线 。 相 反 ， 其 他 大 的 块 〈 在 该 聚 类 的 末端 ) 对 应 于 具有 特定 属性 或 行为 的 工厂 ， 这 些 特 
性 或 行为 的 扩散 程度 足以 被 视 为 标准 的 奉 代 实践 。 当 然 ， 正 如 前 面 所 提 到 的 ， 这 是 一 个 不 
可 知 论 的 分 析 ， 应 该 有 助 于 理解 如 何 使 用 层次 聚 类 。 
最 后 一 步 ， 我 们 希望 在 约 35000 的 差异 度 水 平 上 切割 树 状 图 (对 应 于 2 个 聚 类 )。 结 果 
显示 如 图 4-13 所 示 。 
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图 4-13 水 处 理 厂 数据 集 的 聚 类 结果 (2 个 聚 类 ) 
在 此 级 别 ， 树 状 图 显示 属于 聚 类 的 大 部 分 样本 和 剩余 的 较 小 块 。 现 在 我 们 知道 这 样 的 
次 要 区 域 对 应 于 xE(-40,10) 和 y>20。 同 样 ， 结 果 并 不 令 人 惊讶 ， 因 为 t-SNE 图 显示 这 些 
样本 是 > 20*25 的 唯一 选择 (而 较 大 的 聚 类 ， 即 使 有 很 大 的 空白 区 域 , 也 几乎 涵盖 了 所 有 

















的 范围 )。 











因此 ， 我 们 可 以 指出 ， 这 些 样本 代表 工厂 具 























该 聚 类 ， 则 它 可 能 代表 的 是 非 标准 工厂 (假设 标准 ] 












































为 练习 ， 我 鼓励 读者 测试 其 他 数量 的 聚 类 和 不 同 的 链 方法 〈 特 别 














4.7 连通 性 约束 














凝聚 层次 聚 类 的 一 个 重要 特征 是 可 以 包含 连接 约束 以 强制 合 3 


在 邻近 样本 之 间 有 很 强 关 系 的 环境 中 很 常见 ， 
































须 属 于 同一 个 聚 类 时 也 生 





Matrix), AE {0,1}” ": 
































或 者 在 我 们 知道 





有 的 极端 行为 ， 并 且 如 果 将 新 检 
[三 的 行为 与 大 多 数 同类 工厂 相似 )。 作 


4.7 连通 性 约束 


























的 )， 并 尝试 验证 或 拒绝 一 些 事先 假设 的 样本 《它们 没有 必要 在 现实 中 被 接受 )。 











某 些 











i 












































的 样本 或 聚 类 将 保持 合 ; 


直到 进程 结束 )， 因 


























-人 如 果 雹 和 元 相连 接 
[0] 其 他 

一 般 来 说 ,4 是 由 数据 集 图 形 导出 的 邻接 锣 
一 重要 的 要 求 是 没有 孤立 的 样本 〈 即 没有 连接 )， 因 为 它们 无 法 
在 初始 合并 阶段 应 用 ， 并 强制 算法 聚合 指定 的 样本 。 由 





























于 以 下 


特定 样本 。 这 种 先 验 知识 
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本 分 配给 


是 单一 链 ， 这 是 非常 特殊 














样本 由 于 其 固有 属性 而 必 














E 阵 (Adjacency Matrix)。 但 是 ， 邻 接 入 
EF 何方 式 合并 。 连 接 和 矩阵 
聚集 不 影响 连接 (两 个 合 3 





以 人 


























此 其 总 是 强制 执行 约束 。 














常见 。 为 了 实现 这 一 目标 ， 我 们 需要 使 用 连接 矩阵 (Connectivity 


E 阵 唯 








为 了 理解 这 个 过 程 ， 让 我 们 考虑 一 个 示例 数据 集 ， 其 中 包含 从 8 个 双 变量 高 斯 分 布 中 





提取 的 50 个 二 维 点 : 








~ 


from sklearn.datasets import make blobs 


nb _ samples 


50 
nb centers 8 





X, Y = make blobs(n samples=nb samples, n features=2, center box=[-1, 


centers=nb centers, random state=1000) 











连接 约束 数据 集 如 





在 图 4-14 中 ， 我 们 看 到 样本 18 和 31 (xoE (-2,-1) 和 xi1E (1,2)) 非常 接近 ， 
不 希望 它们 被 合并 ， 因 为 样本 18 在 大 的 中 心 斑点 中 有 更 多 邻近 的 样本 ， 而 点 31 是 着 














图 4-14 所 示 。 




















立 的 ， 应 该 被 认为 是 自治 聚 类 。 我 们 还 希望 料 








本 33 形成 单个 








聚 类 





1], 


日 我 们 


分 天 

















。 这 些 要 求 将 强制 外 





法 合 
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并 不 再 考虑 基础 几何 的 聚 类 《就 高 斯 分 布 而 言 )， 而 是 用 先 验 知识 。 
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图 4-14 连接 约束 数据 集 示 例 

















为 了 检查 取 类 的 工作 原理 ， 现 在 让 我 们 使 用 欧 氏 距离 和 平均 链 来 生成 树 状 图 截断 在 














20 个 叶子 ): 


上 











from scipy.spatial.distance import pdist 


from scipy.cluster.hierarchy import linkage, dendrogram 


dm = pdist(X, metric='euclidean') 








2 = linkage (dm, method='average') 


fig, ax = plt.subplots (figsize=(20, 10)) 


d = dendrogram(Zz, orientation='right', 


truncate mode='lastp', p=20, ax=ax) 


ax.set xlabel('Dissimilarity', fontsize=18) 


ax.set ylabel('Samples', fontsize=18) 


该 树 状 图 〈 从 右 到 左 ) 如 图 4-15 所 示 。 


正如 预期 的 那样 ， 样 本 18 和 31 被 立即 合并 
( 当 数 字 在 括号 之 间 时 ， 表 示 它 是 被 包含 在 更 多 村 











， 然 后 与 包含 2 个 样本 的 另 一 个 聚 类 聚合 
本 的 复合 块 )， 可 能 是 44 和 13。 样 本 33 














也 被 合并 ， 因 此 它 不 会 保留 在 隔离 的 聚 类 中 。 为 了 确认 ， 让 我 们 用 n_clusters=8 执行 聚 类 : 











from sklearn.cluster import AgglomerativeClustering 


ag = 
'average') 
Y_ pred = 


AgglomerativeClustering(n clusters=8, 


ag .fit predict (x) 



















































































4.7 


affinity='euclidean', 











00 





图 4-15 


欧 氏 距离 也 


使 用 欧 氏 距离 和 平均 链 聚 类 的 数据 身 


Xl 


i 


4 


3 4 


图 4-16 使 用 欧 氏 距离 和 平均 链 聚 类 的 数据 集 


5 


20 
Dissimilarity 


[平均 链 连 接 约 束 示例 的 树 状 图 











居 如 图 4-16 所 示 。 
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Cluster 2 
Cluster 8 
Cluster 4 
Cluster 5 
Cluster 7 
Cluster 6 
Cluster 1 
Cluster 3 


连通 性 约束 


linkage= 
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结果 证 实 了 之 前 的 分 析 。 在 没有 约束 的 情况 下 ， 平 均 链 产生 与 基本 事实 
为 了 分 割 大 的 中 心 斑点 并 保持 所 需 的 聚 类 数 ， 算 法 也 必须 合并 孤立 的 
角 认 它 们 在 末尾 以 最 高 差异 度 级 别 合并 。 
前 两 个 最 近邻 域 的 连接 矩阵 很 可 能 强制 聚合 属于 





区 (8 个 高 斯 分 布 )。 
样本 ， 即 使 树 状 图 胡 
为 了 施加 约束 ， 我 们 可 以 观察 到 大 
区 域 的 所 有 样本 《考虑 至 
行为 的 原因 是 基于 平均 链 的 目标 (最 小 化 聚 类 间 的 平均 距离 )。 
法 更 容易 与 其 他 相 邻 聚 类 紧密 
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时 次 聚 类 
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容 的 合理 分 
































I 相 邻 区 域 较 近 )， 并 最 终 保持 自治 聚 类 中 的 孤立 点 。 这 种 假设 


因此 ,在 施加 约束 之 后 ， 算 























及 & 口 





( 记 住 4 具有 空 值 ， 但 是 在 与 两 个 最 近邻 域 相 对 应 的 
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置 中 ) 并 且 使 最 远 点 保持 未 聚合 直到 差异 度 级 别 足 够 大 《产生 非常 不 均匀 的 聚 类 )。 


为 了 检查 我 们 的 假设 是 否 是 真 的 ， 让 我 们 使 用 scikit-learn 的 函数 kneighbors_graph0O 生 
成 连接 矩阵 ， 使 用 n_neighbors=2 并 重新 聚合 数据 集 ， 并 设置 connectivity 约束 : 

















from sklearn.cluster import AgglomerativeClustering 


from sklearn.neighbors import kneighbors graph 


cma 三 


ag = AgglomerativeClustering(n clusters=8, affinity='euclidean', 


kneighbors graph (X, n neighbors=2) 


'average', connectivity=cma) 


Y pred = ag.fit predict (x) 


代码 段 的 图 形 输出 如 图 4-17 所 示 。 
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使 用 欧 氏 距离 和 平均 链 聚 类 并 使 用 连通 性 约束 的 数据 集 
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正如 预期 的 那样 ， 样 本 18 被 分 配 到 大 的 中 央 聚 类 ， 而 点 31 和 33 现在 已 被 隔离 。 当 然 ， 




































































在 外 。 








由 于 这 个 过 程 是 分 层 的 ， 所 以 施加 连接 约束 比分 离 约束 更 容易 。 事 实 上 ， 虽 
以 在 初始 阶段 轻松 合并 ， 但 使 用 所 有 连接 方法 都 无 法 轻易 保证 在 最 终 合 并 之 前 将 它们 排除 





然 单 个 样本 可 


当 需 要 复杂 约束 时 《给 定 距 离 和 链 )， 我 们 通常 需要 调整 聚 类 的 连接 矩阵 和 期 望 数量 。 
当然 ， 如 果 使 用 特定 数量 的 聚 类 实现 期 望 的 结果 ， 还 需 使 用 更 大 的 值 来 实现 ， 直 到 到 达 差 
异 度 下 限 〈 即 合并 过 程 减少 聚 类 的 数量 ， 因 此 ， 如 果 差 异 度 足 够 大 ， 则 所 有 现 有 的 约束 都 


















































将 保持 有 效 )。 例如 3 个 样本 被 约束 为 属于 同一 个 聚 类 , 那么 在 初始 合 
不 能 期 望 得 到 这 个 结果 。 















































并 阶段 























之 后 我 们 通 种 














但 是 ， 如 果 所 有 3 个 样本 的 合并 发 生 在 特定 差异 度 级 别 〈 例 如 2.0 级 对 应 于 30 个 聚 类 )， 
则 对 于 n<30 个 聚 类 以 及 DL>2.0 的 所 有 配置 也 仍然 有 效 。 因 此 ， 如 果 我 们 从 5 个 聚 类 开始 ， 
























































我 们 可 以 轻松 地 增加 这 个 数字 ， 同 时 注意 具有 大 于 约束 所 施加 的 最 后 一 次 合并 相对 应 的 差 











异 度 级 别 。 我 鼓励 读者 使 用 其 他 数据 集 测 试 该 方法 ， 并 尝试 定义 先前 的 约束 ， 这 些 约束 可 

















以 在 聚 类 过 程 之 后 被 轻松 验证 。 











4.8 ”总 结 









































在 本 章 中 ， 我 们 提出 了 层次 聚 类 方法 ， 重 点 关注 可 采用 的 不 同 算法 《分裂 和 凝聚 算法 )。 
我 们 还 讨论 了 用 于 发 现 哪些 聚 类 可 以 合并 或 拆 分 的 方法 〈 即 链 )。 特 别 地 ， 给 定 距离 度量 ， 



































我 们 分 析 了 4 种 链 的 行为 : 单一 链 、 完 整 链 、 平 均 链 和 Ward 链 。 

















我 们 已 经 展示 了 如 何 构 建树 状 图 以 及 如 何 分 析 它 ， 以 便 使 用 不 同 的 方法 来 理解 整个 层 
次 过 程 。 然 后 我 们 引入 了 一 种 称 为 同 表 型 相关 性 的 性 能 指标 ， 在 不 了 解 基本 事实 的 情况 下 



































评估 分 层 算法 的 性 能 。 





























我 们 分 析 了 一 个 更 大 的 数据 集 〈 水 处 理 厂 的 数据 集 )， 定 义 了 一 些 假设 ， 并 使 用 前 面 讨 
论 过 的 所 有 工具 对 它们 进行 了 验证 。 在 本 章 的 最 后 ， 我 们 讨论 了 连通 性 约束 的 概念 ， 它 多 







































































许 使 用 连接 矩阵 将 先 验 知识 引入 流程。 


在 第 5 章 中 ， 我 们 将 介绍 软 聚 类 的 概念 ， 重 点 是 模糊 算法 和 两 个 非常 引 



























































4.9 问题 





1. 凝聚 方法 和 分 裂 方法 有 什么 区 别 ? 





i 
党 
< 
EU 
n> 
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2. 给 定 两 个 聚 类 a: [(-1, 一 1), (0, 0)] 和 5: [(1, 1), (1, 0)]， 思 考 一 下 欧 氏 距离 的 单一 链 和 
完整 链 的 联系 是 什么 ? 


3. 树 状 图 可 以 表示 给 定数 据 集 的 不 同 链 的 结果 。 正 确 吗 ? 

4. 在 凝聚 聚 类 中 ， 树 状 图 的 底部 〈 初 始 部 分 ) 包含 了 单个 聚 类 。 正 确 吗 ? 
5. 凝聚 聚 类 中 树 状 图 的 轴 是 什么 意思 ? 

6. 在 合并 较 小 的 聚 类 时 ， 差 异 度 会 降低 。 正 确 吗 ? 


7. 同 表 型 矩阵 的 元 素 C@ 力 报告 了 两 个 对 应 元 素 羡 和 蕊 第 一 次 出 现在 同一 聚 类 中 的 差 
异 度 。 正 确 吗 ? 


8. 连通 性 约束 的 主要 目的 是 什么 ? 
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央 作 加 国 限 因 邮 加 出 图 如 者 间 央 图 吉 国 








在 本 章 中 ,我 们 将 讨论 软 聚 类 的 概念 ， 它 允许 我 们 针对 定义 的 聚 类 配置 ， 获 取 数 据 集 每 个 
样本 的 隶属 程度 。 也 就 是 说 ， 从 0 到 100% 的 范围 ， 我 们 想 知 道 x; 属 于 聚 类 的 程度 。 如 果 极 值 
为 0， 这 意味 着 x 完全 位 于 聚 类 的 域外 部 ， 如 果 为 1 (100%)， 则 表示 羡 已 完全 分 配给 单个 聚 
类 。 所 有 中 间 值 意味 着 两 个 或 更 多 个 不 同 聚 类 的 部 分 域 。 因 此 ， 与 硬 聚 类 相反 ， 在 这 里 ， 我 们 
感 兴趣 的 不 是 固定 分 配 ， 而 是 具有 相同 概率 分 布 〈 或 概率 本 身 ) 属性 的 向 量 。 这 种 方法 可 以 更 
好 地 控制 边界 样本 ， 并 帮助 我 们 找 出 生成 过 程 的 适当 近似 值 ， 而 数据 集 则 可 在 该 过 程 被 绘制 。 

本 章 将 着 重 讨 论 以 下 主题 。 























































































































































































































e Fuzzy c-means。 

。 高 斯 混合 。 

。 用 AIC 和 BIC 作为 性 能 指标 。 
。 贝 叶 斯 高 斯 混合 〈 简 介 )。 


。 生成 《〈 半 监督 ) 高 斯 混合 。 


5.1 技术 要 求 





















































本 章 中 的 代码 需求 如 下 。 

。 Python 3.5+《〈 强 烈 推荐 Anaconda 发 行 版 )。 

4 
SciPy 0.19+。 
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NumPy 1.10+。 


scikit-learn 0.2 


pandas 0.22+。 


m Seaborn 0.9+。 


示例 代码 可 在 本 书 配 

















5.2 软 聚 类 


在 层次 取 类 
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0+。 


scikit-fuzzy 0.2。 


Matplotlib 2.0+。 


套 的 代码 包 中 找到 。 








给 单个 聚 类 。 软 聚 类 则 旨 才 








聚 类 的 概率 : 





聚 类 操作 中 分 析 的 所 有 算法 都 属于 硬 


了 > 
聚 类 





方法 。 这 意味 着 始终 将 给 定 样本 分 配 























C(x)= (pO eC), px ECs), p(X EEC) 


另外， 输出 可 以 解释 





为 隶属 向 量 : 


c®)= (Wi, wa Ww) 同时 > w, =1 
本 





E 将 每 个 样本 xi 与 一 个 向 量 相 关联 ， 该 向 量 通 常 表示 x 属于 每 个 





从 形式 上 讲 ， 两 个 解释 之 间 没 有 区 别 ， 但 在 通常 情况 下 ， 当 算法 没有 明确 地 基于 概率 

















分 布 时 ， 我 们 将 采 
式 ， 我 们 鼓励 读者 思考 



































以 定义 近似 值 Pdaata 如 下 和 


因此 , 该 过 程 被 分 成 (独立 的 ) 分 量 的 加 权 和 ， 并 
我 们 通常 期 望 每 个 样本 都 有 
个 重要 的 认识 ， 这 些 边界 点 可 
另 一 个 模型 〈 例 如 神经 网 络 ) 中 时 ， 























二 
点 有 











] 于 获取 数据 集 的 数 所 
释 为 与 构成 数据 生成 过 程 近似 值 的 特定 贡献 相关 的 概率 pu。 例如 使 








EE 


E 成 过 程 。 








后 者 。 出 于 我 们 的 目的 ， 我 们 总 是 将 cCo) 与 概率 相关 联 。 通 过 这 种 方 

















个 明显 的 


列子 是 将 这 些 向 量 解 











Paaia (x;) 党 p(X) > 2 wp,(%) 














个 主要 的 组 成 部 分 ， 
以 分 配给 不 同 的 聚 类 。 出 于 这 个 原 























但 是 通过 这 种 方法 ， 














概率 混合 ， 我 们 可 





输出 的 是 它们 各 自 x 的 概率 。 当 然 ， 


我 们 可 以 对 所 有 边界 
内， 当 输 出 可 以 输入 











了 之 
聚 类 


软 




















者 可 以 首先 使 用 软 聚 类 算法 对 




















复杂 的 关系 。 一 个 常见 的 场景 包括 通 

















j 户 进行 分 段 ， 然 后 处 





非常 有 用 ， 它 可 以 利用 整个 


























理 这 些 向 量 ， 以 便 











过 问题 的 答案 ; 











概率 向 量 。 例 如 推荐 
根据 显 式 反馈 找到 更 





行 更 正 , 例如 “这 个 结果 与 你 相关 吗 ? ” 
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或 者 “你 想 看 到 更 多 这 样 的 结果 吗 ? ”由 于 答案 是 由 用 户 直 接 提供 的 ， 因 此 它们 可 以 用 于 监 
督 或 强化 学 习 模 型 ， 其 输入 基于 软 自 动 分 割 ( 例 如 基于 购买 历史 或 详细 页 面 视图 )。 用 这 种 
方式 ， 我 们 可 以 通过 更 改 原 始 分 配 《〈 由 于 不 同 聚 类 提供 的 大 量 贡献 ) 来 轻松 管理 边界 用 户 ， 
同时 建议 具有 强 隶 属 资格 〈 例 如 概率 接近 1) 的 其 他 用 户 提供 建议 的 概率 以 提高 其 回报 。 

我 们 现在 可 以 开始 讨论 Fuzzy c-means, 这 是 一 种 非常 灵活 的 算法 , 它 将 讨论 过 的 K-means 
概念 扩展 到 软 聚 类 应 用 中 。 
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5.3 Fuzzy c-means 




















我 们 接 下 来 提出 的 第 一 个 算法 是 基于 软 分 配 的 K-means 变 体 。Fuzzy c-means 源 自 模糊 
集 的 概念 ， 模 糊 集 是 经 典 二 进 制 集 的 扩展 《 即 在 这 种 情况 下 ， 样 本 可 以 属于 单个 聚 类 )， 它 
是 基于 表示 整个 集合 不 同 区 域 的 不 同 子 集 的 登 加 而 得 到 的 集合 。 例 如 基于 某 些 用 户 年 龄 的 
集合 可 以 分 为 青年 、 中 年 和 老年 人 ， 其 与 3 个 不 同 〈 部 分 重 登 ) 的 年 龄 范围 相关 联 : 18 一 
35、28 一 60 和 >50。 因 此 ， 例 如 一 个 30 岁 的 用 户 在 不 同 划分 程度 上 既是 青年 又 是 中 年 人 《〈 考 
虑 边界 ， 实 际 上 是 边界 用 户 )。 有 关 这 些 类 型 集 和 所 有 相关 操作 的 更 多 详细 信息 ， 我 建议 阅读 
Concepts and Fuzzy Logic 一 书 。 为 了 达到 目的 ， 我 们 可 以 假设 一 个 数据 集 X， 包 含 m 个 样本 ， 
被 划分 为 个 重 登 聚 类 ， 以 便 每 个 样本 始终 与 每 个 聚 类 相关 联 ， 根 据 它 们 的 隶属 度 wy 〈 它 是 
一 个 介 于 0 和 1 之 间 的 值 )。 如 果 wj=0, 则 意味 着 x; 完 全 在 聚 类 C 之 外 , 而 相反 , 如 果 wj= 1， 
则 表示 对 聚 类 CG 的 硬 分 配 。 所 有 中 间 值 代表 部 分 隶属 。 当 然 ， 由 于 显而易见 的 原因 ， 样 本 的 
所 有 隶属 度 的 总 和 必须 归 一 化 为 1 (类 似 于 概率 分 布 )。 通 过 这 种 方式 ， 样 本 始终 属于 所 有 聚 
类 的 联合 ， 并 且 就 隶属 资格 而 言 ， 将 聚 类 拆 分 为 两 个 或 更 多 个 子 集 总 是 会 产生 一 致 的 结果 。 

该 算法 基于 广义 惯性 量 Sy 被 优化 : 



















































































































































































































































































在 前 面 的 公式 中 ，j 是 聚 类 GC; 的 质心 ， 而 m(m>1) 是 重新 加 权 指 数 系数 。 当 m 守 1 时 ， 
权重 不 受 影响 。 对 于 较 大 的 值 ， 例 如 wjE (0,1)， 其 重要 性 按 比 例 降低 。 我 们 可 以 选择 这 样 
的 系数 来 比较 不 同 值 的 结果 和 期 望 模糊 度 的 水 平 。 实 际 上 ， 在 每 次 迭代 之 后 (完全 等 同 于 
K-means)， 使 用 以 下 公式 更 新 权重 ; 






























































118 第 5 章 软 聚 类 和 高 斯 混合 模型 


如 果 x; 接 近 质 心 jy， 则 总 和 接近 于 0， 并 且 权 重 增 加 (当然 ， 为 了 避免 数值 不 稳定 性 ， 
在 分 母 中 添加 一 个 小 常数 ， 这 样 它 永 远 不 会 等 于 0)。 当 m>> 1 时， 指数 变 得 接近 0， 并 
总 和 中 的 所 有 项 趋向 于 1。 这 意味 着 特定 聚 类 的 偏好 被 削弱 并 且 wj 守 1X 对 应 于 均匀 分 布 。 
因此 ， 较 大 的 m 意味 着 更 平滑 的 分 区 ， 不 同 的 分 配 之 间 没 有 明显 的 差异 《除非 样本 非常 接 
近 质 心 )， 而 当 m 守 1 时 ， 单 个 主导 权重 几乎 等 于 1， 其 他 权重 则 接近 0〈 即 分 配 很 难 )。 


质心 的 更 新 方式 类 似 于 Kmeans〈 换 句 话说 ， 即 目标 是 实现 最 大 分 离 和 最 大 内 聚 ): 






































































































































重复 该 过 程 直到 质心 和 权重 变 得 稳定 。 在 收敛 之 后 ， 使 用 特定 度量 来 评估 结果 ， 称 为 
归 一 化 Dunn 的 分 区 系数 (Dunn's Partitioning Coefficient)， 定 义 如 下 : 




















可 以 看 出 ， 这 样 的 系数 值 在 0 和 1 之 间 。 当 Pecs0 时 ， 则 wcs:1M， 这 意味 着 分 布 平 
滑 且 模糊 度 高 。 另 一 方面 ， 当 Pcs1 时 ， 则 wcs1， 表 示 几 乎 难以 分 配 ， 所 有 其 他 值 都 与 
模糊 度 成 正比 。 因 此 ， 在 给 定 任务 的 情况 下 ， 数 据 科学 家 可 以 立即 根据 所 需 的 结果 评估 算 
法 的 性 能 。 在 某 些 情况 下 , 硬 分 配 更 可 取 ， 因 此 Pe 可 被 视 为 在 切换 到 标准 K-means 之 前 要 
执行 的 检查 。 实 际 上 ， 当 Pc=*1〈 并 且 这 样 的 结果 是 预期 结果 ) 时， 再 使 用 Fuzzy c-means 
是 没有 意义 的 。 相 反 ， 小 于 1 的 值 〈 例 如 Pc= 0.5) 会 告知 我 们 由 于 存在 许多 边界 样本 ， 可 
能 会 存在 非常 不 稳定 和 难以 执行 的 任务 。 
现在 ， 让 我 们 将 Fuzzy c-means 算法 应 用 于 scikit-learn 库 提 供 的 简化 MNIST 数据 集 。 
算法 由 scikit-fuzzy 库 提 供 ， 该 库 实现 了 所 有 最 重要 的 模糊 逻辑 模型 。 第 一 步 就 是 加 载 和 
范 化 样本 ， 如 下 所 示 ; 


from sklearn.datasets import load digits 



























































































































































浇 瑟 


digits = load digits() 
Xx = digits['data'] / 255.0 
Y = digits['target'] 


数组 筷 包 含 1797 个 展 平 样 本 ，xE 力 ， 对 应 于 灰 度 8x8 的 图 像 (其 值 在 0 和 1 之 间 


归 一 化 )。 我们 想 要 分 析 不 同 m 系数 的 行为 (5 个 均值 在 1.05 和 1.5 之 间 ) 并 检查 样本 的 权 
重 〈 在 我 们 的 例子 中 ， 我 们 将 使 用 0])。 因 此 ， 我 们 调用 scikit-fuzzy 库 的 函数 cmeans0()， 
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设置 c=10( 聚 类 数量 ) 和 两 个 收敛 参数 ， 即 error=1e-6 和 maxiter=20000。 此 外 ， 出 于 可 重 
复 性 的 原因 ， 我们 还 将 设置 标准 随机 seed=1000。 输 入 数组 应 包含 样本 列 。 因 此 ， 我 们 需要 
对 其 进行 转 置 ， 如 下 所 示 : 

















from skfuzzy.cluster import cmeans 


] 
pcs = [] 


for m in np.linspace(1.05, 1.5, 5): 

fc W, , , , _, pc = cmeans(X.T, c=10, m=m, error=le-6, 
maxiter=20000, seed=1000) 

Ws.append (W) 

pcs.append (pc) 


前 面 的 代码 段 执行 不 同类 型 的 聚 类 ， 并 将 相应 的 权重 矩阵 天 和 分 区 系数 已 附加 到 两 
个 列表 中 。 在 分 析 特 定 配 置 之 前 ， 显 示 测 试 样本 (表示 数字 0) 的 最 终 权 重 〈 对 应 于 每 个 
数字 ) 是 有 帮助 的 ， 如 图 5-1 所 示 。 


m=1.05,Pc =0.96 m=1.1625.Pc =0.80 m=1275,Pc=0.58 m=1.3875,.Pc =0.24 m=15,Pc=0.10 


6 
14 8 
20 
亿 
0 6 4 
8 3 
4 
6 
2 
本 2 
2 1 
0 0 0 00 
0o123456789 o123456789 o123456789 


图 5-1 对 应 于 不 同 m 值 的 样本 XI0] 的 权重 值 ( 以 反 向 对 数 刻度 表示 ) 


由 于 极 值 往往 不 同 ， 我们 选择 使 用 反 向 对 数 刻度 ( 即 -log(woj) 而 不 是 wo)。 当 m= 1.05 
时 , Pc 为 0.96, 并 且 所 有 权重 (与 C? 对 应 的 权重 除外 ) 都 非常 小 (请 记 住 ， a =30， 
则 w = e“”)。 这 样 的 配置 清楚 地 显示 了 具有 主要 成 分 (C,〉 的 硬 聚 类 。 图 5-1 中 后 三 个 图 
表 显 示 出 明显 的 优势 。 但 是 ， 当 m 增加 (和 Pec 减少) 时， 主要 和 次 要 分 量 之 间 的 差异 变 
得 越 来 越 小 。 此 效果 越 来 越 模糊 ， 在 m>1.38 时 达到 最 大 值 。 事 实 上 ， 当 m=1.5 时 ， 即 
使 Pc 为 0.10， 所 有 权重 也 几乎 相同 ， 并 且 测 试 样 本 不 能 轻易 地 分 配给 主导 聚 类 。 正 如 我 们 
之 前 讨论 过 的 ， 我 们 现在 知道 像 K-means 这 样 的 算法 很 容易 找到 硬 分 区 ， 因 为 平均 而 言 ， 
对 应 不 同 数字 的 样本 彼此 差异 很 大 ， 欧 氏 距 离 足 以 将 它们 分 配 到 正确 的 质心 。 在 这 个 例子 
中 ， 我 们 希望 保持 适度 的 模糊 性 ， 因 此 我 们 选择 m= 1.2 (对 应 Pe 为 0.73): 


ee 
总 
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so 
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fc, W, , , , pc= cmeans(X.T, c=10, m=1.2, error=le-6, maxiter=20000, 
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seed=1000) 
Mu = fc.reshape ((10, 8, 8)) 





数组 Mu 包含 的 质心 ， 如 图 5-2 所 示 。 


CEI EI CS EI 


图 5-2 m= 1.2 和 Pc 为 0.73 对 应 的 质心 



































如 你 所 见 ， 所 有 不 同 的 数字 都 已 经 被 选择 了 ， 并 且 如 预期 的 那样 ， 第 三 个 聚 类 《〈 由 C2 


表示 ) 对 应 于 数字 0。 现 在 ， 让 我 们 检查 与 0] 对 应 的 权重 (此 外 ， 克 被 转 置 ， 所 以 它们 
存储 在 研 :，0] 中 : 














下 

















Betht (WE OY 


丛 出 如 下 : 





[2.68474857e-05 9.14566391e-06 9.99579876e-01 7.56684450e-06 


1.52365944e-05 7.26653414e-06 3.66562441e-05 2.09198951e-05 
2.52320741e-04 4.41638611e-05] 
































即使 分 配 不 是 特别 困难 ， 聚 类 C, 的 主导 地 位 也 是 很 明显 的 。 第 三 个 潜在 分 配 是 Cs， 
对 应 于 数字 9( 比 率 约 为 4000)。 这 样 的 结果 与 数字 的 形状 完全 一 致 ， 并且 考虑 到 最 大 权重 
与 第 二 个 权重 之 间 的 差异 。 但 是 在 这 里 很 明显 ， 即 使 使 用 Pc 守 0.75， 大 多 数 样本 也 很 难 分 


配 ( 即 在 K-means 中 )。 为 了 检查 硬 分 配 的 性 能 《使 用 权重 矩阵 上 的 函数 argemax0O 获 得 )， 
并 考虑 到 我 们 知道 基本 事实 ， 我 们 可 以 使 用 adjusted_rand_score， 如 下 所 示 ; 
































































































































from sklearn.metrics import adjusted rand score 
Y pred = np.argmax (W.T, axis=1) 


print (adjusted rand score(Y，Y pred)) 


代码 段 的 输出 如 下 所 示 : 





0.6574291419247339 








该 值 确认 了 大 多 数 样品 已 成 功 硬 分 配 。 作 为 补充 练习 ， 我 们 可 以 找到 权重 具有 最 小 标 
侍 差 的 样本 : 
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im = np.argmin (np.std(W.T, axis=1)) 


print (im) 
print (Y[im]) 
BELDt,WE. Em] 


丛 出 如 下 : 


414 
8 
[0.09956437 0.05777962 0.19350572 0.01874303 0.15952518 0.04650815 


03059092416. 0:.129100.96, 03%17526108..0.:0.60.9197.3] 





样本 XI414] 代 表 一 个 数字 (8)， 如 图 5-3 所 示 。 
在 这 种 情况 下 ， 有 3 个 主要 聚 类 : Cg、C4 和 Cy 
( 按 降序 排列 )。 不 幸 的 是 , 它们 都 不 对 应 于 与 Cs 相关 
的 数字 8。 不 难 理解 ， 这 样 的 错误 主要 是 由 于 数字 下 
部 的 畸形 ， 其 结果 更 类 似 于 9( 这 样 的 错误 分 类 也 可 






























































































































































































































































能 发 生 在 人 身上 )。 然 而 ， 低 标准 差 和 缺乏 明显 主要 成 ”图 $3 样本 [414] 的 图 解释 对 应 于 
分 告知 我 们 不 能 轻易 做 出 决定 ， 样 本 具有 属于 3 个 主 只 生 最 小 本 准 益 的 权重 向 量 

要 聚 类 的 特征 。 更 复杂 的 监督 模型 可 以 轻松 避免 这 种 

错误 ， 但 考虑 到 我 们 正在 进行 无 监督 分 析 ， 结 果 并 非 如 此 消极 ， 我 们 只 是 对 基本 事实 进行 
评估 。 我 建议 你 使 用 其 他 m 什 来 测试 结果 ， 并 尝试 找 出 一 些 潜在 的 组 合 规则 也 就 是 说 ， 
数字 8 中 的 大 多 数 被 软 分 配给 C 和 Gj， 因此 ， 我 们 可 以 假设 相应 的 质心 编码 共享 部 分 的 党 











见 特征 ， 例 如 所 有 数字 8 和 数字 9)。 
现在 ， 我 们 可 以 讨论 高 斯 混合 的 概念 了 ， 这 是 一 种 使 用 非常 广泛 的 方法 ， 用 于 对 数据 
集 的 分 布 进行 建 模 ， 数 据 集 的 分 布 则 是 由 低 密 度 区 域 包围 的 密集 斑点 组 成 。 
























































5.4 高 斯 混合 















































高 斯 混合 (Gaussian Mixture) 是 最 著名 的 软 聚 类 方法 之 一 ， 具 有 许多 特定 应 用 。 它 可 
以 被 认为 是 人 -means 之 父 ， 因 为 它们 的 工作 方式 非常 相似 ， 但 与 该 算法 相反 ， 它 给 定 样本 
XiE 了 入 聚 类 (表示 为 高 斯 分 布 )， 提 供 概率 向 量 [pG;E C1), …, p(xiE CD]。 

一 般 来 说 ， 如 果 数 据 集 对 已 经 从 数据 生成 过 程 pw 中 采样 ， 那 么 高 斯 混合 模型 则 基于 
以 下 假设 : 
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pasa CE) ~ pW) = pN = NG IB 5)= Dw NG IB, 5) 


换 句 话说 ， 数 据 生 成 过 程 通过 多 元 高 斯 分 布 的 加 权 和 来 近似 。 这 种 分 布 的 概率 密度 函 














数 如 下 : 


NG ,D5)) = 








Pl 3 
全- 万) 号 (HD) 


每 个 多 元 高 斯 分 布 的 每 个 分 量 的 影响 都 取决 于 协 方差 矩阵 的 结构 。 二 元 高 斯 分 布 的 3 














种 可 能 的 协 方差 矩阵 《结果 可 以 很 容易 地 扩展 到 半 维 空间 )， 如 图 5-4 所 示 。 
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图 5-4 ”完全 协 方差 ( 左 )、 对 角 协 方差 (中 ) 和 圆 形 /球形 协 方差 矩阵 〈 右 ) 





3 














从 现在 开始 ， 我 们 将 考虑 完全 协 方差 矩阵 的 情况 ， 该 矩阵 可 以 实现 最 大 的 表达 能 














很 容易 理解 的 是 ， 当 这 样 的 分 布 完全 对 称 ( 即 协 方差 矩阵 是 
状 与 K-means 相同 (当然 ， 在 高 斯 混合 中 ， 
差 之 后 切割 高 斯 )。 相 反 ， 当 协 方差 矩阵 不 是 对 角 或 具 



































工 











圆 形 或 球形 ) 时 ， 伪 聚 类 的 形 






































《例如 在 双 变 量 的 情况 下 ， 一 个 变量 可 以 显示 比 另 

















斯 混合 允许 我 们 计算 实际 概率 ， 而 不 是 测量 样本 x 不 




















一 个 单 变量 的 高 斯 混合 示例 如 图 5-5 所 示 。 

















在 这 种 情况 下 ， 每 个 样本 在 每 个 高 斯 下 始终 
和 矩阵 确定 。 例 如 与 x 位 置 对 应 的 点 2.5 既 可 以 忆 
左 侧 的 点 影响 最 小 )。 正 如 本 章 开头 所 述 ， 任 














Cargmax) 的 分 量 而 转换 为 硬 聚 类 算法 。 





各 位 读者 将 很 快 了 解 到 ， 在 使 用 对 角 协 方差 和 
外 的 信息 (完全 被 K-means 丢弃 )， 可 以 在 进一步 





个 更 大 的 方差 )。 在 这 两 




















t 有 非 空 概率 ， 其 影 














上 

















于 中 间 的 高 斯 ， 也 可 以 属于 右 
可 软 聚 类 算法 都 可 以 通过 选择 








E 阵 的 特定 情况 下 ，argmax 提 





聚 类 没有 边界 ， 但 总 是 可 以 在 固定 数量 的 标准 
不 同 的 方差 时 ， 影 响 不 再 是 对 称 的 
情况 下 ， 高 
































各 由 其 其 


[平均 向 量 yw 之 间 的 距离 (如 K-means)。 


值 和 协 方差 
的 高 斯 (而 








最 大 影响 











供 了 一 条 额 


pe 

















的 处 理 步骤 中 使 用 (也 就 是 说 ， 推 荐 应 用 
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程序 可 以 提取 所 有 聚 类 的 主要 特征 ， 并 根据 相对 概率 对 其 进行 重新 加 权 )。 
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图 5-5 单 变量 的 高 斯 混合 示例 

















5.4.1 高 斯 混合 的 EM 算法 
完整 的 算法 (在 Mastering Machine Learning Algorithms 中 有 详细 描述 ) 比 K-means 稍 
微 复 杂 一 点 ， 并 且 它 需要 更 深入 的 数学 知识 。 由 于 本 书 的 内 容 更 加 注重 实用 性 ， 因 此 在 这 
里 我 们 只 讨论 主要 步骤 ， 而 不 提供 算法 依据 。 
让 我 们 首先 考虑 包含 n 个 样本 的 数据 集 : 
X={%,T, ,D5,) where T eR” 
给 定 k 人 分布， 我们 需要 找到 权重 w 和 每 个 高 斯 (4, 马 ) 的 参数 ， 条 件 如 下 : 


| 


最 后 一 个 条 件 对 于 保持 与 概率 定律 的 一 致 性 是 必要 的 。 如 果 我 们 将 所 有 参数 分 组 到 单 
个 集合 ，0 = (w, yw 马 )， 则 可 以 定义 样本 x; 在 第 j 个 高 斯 下 的 概率 ， 如 下 所 示 : 
p(x,710,) 
以 类 似 的 方式 , 我 们 可 以 引入 伯 努 利 分 布 z; = p(jlxis 的 ~ B(p)， 表示 第 j 个 高 斯 生成 样 
本 x 的 概率 。 换 句 话说 ， 给 定 一 个 样本 x;，zy 等 于 1， 概率 为 p( jlxi, 9)， 否 则 为 0。 
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此 时 ， 我 们 可 以 计算 整个 数据 集 的 联合 对 数 似 然 ， 如 下 所 示 : 

















n Kk n 天 
zex2=osl TITeGlor | log p(%,, 
i=1 -71 i=1 .ji 


710,) 














在 前 面 的 公式 中 , 我 们 利用 了 指数 指标 表示 法 , 它 依赖 于 zj 只 能 是 0 或 1 的 这 一 事实 。 
因此 ， 当 z=0 时， 这 意味 着 样本 x; 尚未 由 第 j 个 高 斯 生成 ， 并 且 该 乘积 中 的 对 应 项 变 为 1 






































( 即 x"=1)。 相反， 当 z= 1 时 ,该 项 等 于 x 和 第 j 个 高 斯 的 联合 概率 。 














因此 , 假设 每 个 x;EX 








独立 且 同 分 布 ， 则 联合 对 数 似 然 是 模型 已 生成 整个 数据 集 的 联合 概率 。 要 解决 的 问题 是 最 























大 似 然 估计 ， 或 者 换 句 话说 ， 是 找到 最 大 化 Kb 成 刁 的 参数 。 但 是 ， 
(或 潜在 )， 因 此 不 可 能 直接 最 大 化 似 然 ， 因 为 我 们 不 知道 它们 的 值 。 












































变量 闷 没 有 被 观察 到 





解决 这 个 问题 的 最 有 效 方法 是 采用 EM 算法 (参见 Journal of the Royal Statistical Society 














中 的 Maximum Likelihood from Incomplete Data via the EM Algorithm). 























虽然 关于 EM 算法 的 




















完整 解释 超出 了 本 书 的 范围 ， 但 我 们 还 是 想 要 提供 主要 步 又 。 我 们 首先 要 做 的 是 使 用 概率 












































链 规则 ， 以 便 将 先前 的 表达 式 转换 为 条 件 概率 的 总 和 《可 以 很 容易 地 对 其 进行 管理 ): 








n Kk n 大 
L(O;X,2)= > >,z, logp(%,j|0,)= >, 27, logp(x|j,0,)+z, logp(i|0,) 
i=] j=l i=] j=l 
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民 简 单 。 项 pGei|j, 失 是 在 第 j 个 高 斯 下 的 x 的 概率 ， 而 p(j|9) 仅 仪 是 
在 第 7 个 高 斯 的 概率 ， 其 等 于 权重 w;。 为 了 消除 潜在 的 变量 ，EM 算法 以 迭代 的 方式 进行 ， 
两 个 步骤 组 成 。 第 一 个 步骤 〈 称 为 期 望 步骤 ， 或 卫 步 骤 ) 是 在 没有 潜在 变量 的 情况 下 计 






































算 可 能 性 的 代理 。 如 果 我 们 将 整个 参数 集 指 示 为 9, 在 迭代 上 处 计算 的 同一 组 参数 表示 为 0， 





我 们 可 以 计算 出 以 下 函数 : 
0(010)= Ezx.g [ZL(0;X,2Z)] 








Q(0|9) 是 相对 于 变量 zj 的 联合 对 数 似 然 的 期 望 值 ， 并 且 以 数据 集 针 和 在 迭代 时 设置 的 
参数 t 为 条 件 。 该 操作 的 效果 是 删除 潜在 变量 ( 相 加 或 积分 后 的 值 》 并 产生 实际 对 数 似 然 























的 近似 值 。 可 以 想象 , 第 二 个 步 又 〈 称 为 最 大 化 步骤 ,或 M 步骤 ) 的 






























































标 是 最 大 化 2C(Ol0)， 








生成 一 个 新 的 参数 集 941。 重 复 该 过 程 直到 参数 变 得 稳定 ， 并 且 可 以 证 明 最 终 参数 集 与 MLE 























相对 应 。 跳 过 所 有 中 间 步 又 并 假设 最 佳 参数 集 为 b 最 终结 果 如 下 : 


2pPUlN,0,) > > PO,0 Gs -A)G% — A) ] 








PU NN,0,) 
ee 





"pl 了 pO lx,0,) 
为 清楚 起 见 ， 我 们 可 以 使 用 贝 叶 斯 定理 计算 概率 p( jlxi, 01: 


























J n 
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四 ep = 1 DY Gy) 
p(J| Xi,0;) wp(N |j,0;) where p(x, |j,0,) de 
我 们 可 以 通过 归 一 化 所 有 项 来 消除 比例 ， 使 得 它们 的 总 和 等 于 1 (满足 概率 分 布 的 
要 求 )。 
现在 ， 让 我 们 考虑 一 个 使 用 scikit-learn 的 实际 示例 。 由 于 该 示例 纯粹 是 为 了 教学 ， 所 
以 我 们 使 用 一 个 易于 可 视 化 的 二 维 数据 集 : 


from sklearn.datasets import make blobs 



































nb_samples = 300 
nb centers = 2 


X Y = make blobs(n samples=nb samples, n features=2, center box=[-1, 1], 
centers=nb centers, cluster std=[1.0, 0.6], random state=1000) 












































该 数据 集 是 从 两 个 具有 不 同 标 准 差 (1.0 和 0.6) 的 高 斯 分 布 中 采样 生成 的 ， 如 图 5-6 
所 示 。 
1 和 -一 二 [2 se 蝇 人 
@ | 1 se Le @ ® 
加 3 mw 
> ay 32 ee 多 @ 汪汪 
fo ee @ 32。 0 3 ee 9 
. ee ®, ee ee e 昌 
2 . Li ® 
© ES a 0 ©_ ” . a 

















图 5-6 ”高 斯 混合 样本 数据 集 
我 们 的 目标 是 同时 使 用 高 斯 混合 模型 和 K-means， 并 比较 最 终结 果 。 正 如 我 们 对 两 个 
分 量 所 期 望 的 那样 ， 数 据 生 成 过 程 的 近似 值 如 下 : 
Puaaa (XE WNK HS +t WN(x;L, 2,) 


我 们 现在 可 以 用 n_components=2 来 训练 GaussianMixture 实例 。 默 认 协 方差 的 类 型 是 
完全 协 方差， 但 可 以 通过 设置 参数 covariance type 来 更 改 该 选项 。 人 允许 的 值 为 full、diag、 









































二 
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spherical 和 tied (这 会 强制 算法 对 所 有 高 斯 使 用 


from sklearn.mixture import Gaussian 


gm = GaussianMixture(n components=2, 


drt: fit CX) 
Y pred = 


print ('Means: 
print('Covariance matrices: 


print ('Weights: 








代码 段 输出 如 下 : 


Means: 


Ft 


| 算 


Covariance matrices : 


一 


rm 





Weignhts: 


[0.39683899 0.60316101] 


因此 ，MLE 产生 了 两 个 分 量 ， 
标 轴 的 方向 ， 我 们 需要 计算 协 方差 矩阵 的 归 一 化 特 行 




















分 解释 ): 





import numpy as np 


cl = gm.covariances_ [0] 

c2 = gm.covariances_ [1] 

wl, vl = np.linalg.eigh (cl1) 
w2, V2 = np.linalg.eigh (c2) 
nvl = v1 / np.linalg.norm(v1) 
nv2 = v2 / np.linalg.norm(v2) 





一 < 


gm.fit predict (xX) 


-0.02171304 -1.03295837 
0.97121896 -0.01679101 


[ 0.86794212 -0.18290731 


[-0.18290731 1.06858097 


0.44075382 0.02378036] 
0.02378036 0.37802115] 





























\n{}'.format (gm.means )) 


个 分 量 略 占 优势 〈 即 w = 0.6)。 为 了 知道 高 斯 多 





\n{}'.format (gm.weights )) 





向 


ixture 


三 | 


[ 引 











* 享 的 单 协 方差 矩阵 ): 





random state=1000) 


\n{}'.format (gm.covariances )) 





1 这 





《这 个 概念 将 刀 


E 第 7 章 中 得 到 充 
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print('Eigenvalues 1: \n{}'.format (wl1)) 
print('Eigenvectors 1: \n{}'.format (nv1)) 


print('Eigenvalues 2: \n{}'.format (w2)) 





print('Eigenvectors 2: \n{}'.format (nv2)) 





输出 如 下 : 


Eigenvalues 1: 
[0.75964929 1.17687379] 
Eigenvectors 1: 
[[-0.608459 -0.36024664] 
[-0.36024664 0.608459 |]] 





Eigenvalues 2: 

[0.37002567 0.4487493 |] 

Eigenvectors 2: 

[PT 0.22534853 一 056702373 
[0.:6702373 =0%22534853]] 























在 两 个 双 变 量 高 斯 中 《一旦 被 截断 并 从 顶部 观察 ， 可 以 被 想象 为 顶 圆 )， 主 要 成 分 是 第 
二 个 ( 即 第 二 列 ， 对 应 于 最 大 的 特征 值 )。 椭 圆 的 偏心 率 由 特征 值 之 间 的 比率 确定 。 如 果 这 
样 的 比率 等 于 1， 则 形状 是 圆 形 ， 高 斯 是 完全 对 称 的 ， 否 则 它们 沿 着 轴 伸展 。 主 要 成 分 和 x 
轴 之 间 的 角度 〈 以 度 为 单位 ) 如 下 : 
















































































import numpy as np 


al = np.arccos (np.dot (nvil[:, 1], [1.0, 0.0]) / np.linalg.norm(nvil[:, 1])) * 
180.0 / np.pi 
a2 = np.arccos (np.dot (nv2[:, 1], [1.0, 0.0]) / np.linalg.norm(nv2[:, 1])) * 


18.050 .六 BaP 




















前 面 的 公式 基于 主要 分 量 vi 和 x 轴 eo( 即 [1,0]) 之 间 的 点 积 : 


a Vi*@o 
vi:@ =|vlllle, lcos w So =arccos 一 一 一 
liv le, | 


在 显示 最 终结 果 之 前 ， 使 用 K-means 对 数据 集 进 行 聚 类 将 很 有 帮助 : 












































from sklearn.cluster import KMeans 


km = KMeans (n clusters=2, random state=1000) 


km.fit (xX) 
Y pred km = km.predict (XxX) 

















有 具有 3 个 水 平 剖 面 


Gaussian Mixture 























. @ Gaussian1 
$ Gaussian 2 
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图 5-7 县 有 3 个 水 平 剖面 截图 
































正如 预期 的 那样 ， 两 种 算法 产生 的 结果 非常 相似 ， 而 主要 的 差异 是 高 斯 的 非 对 称 1 








斌 图 形状 的 高 斯 混合 结果 和 K-mean 结果 如 图 5-7 所 示 。 


K-means 
4 ® Cluster1 
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E 状 的 高 斯 混合 结果 ( 左 ) 和 K-means 结果 ( 右 ) 





TS 














成 的 。 特 别 地 ， 对 应 于 数据 集 的 左下 部 分 的 伪 聚 类 在 两 个 方向 上 有 共有 较 大 的 方差 ， 并 且 对 























应 的 高 斯 是 主导 的 。 为 了 检查 混合 物 的 行为 ， 让 我 们 使 / 








predict_proba() 计 算 3 个 样本 点 


((0，-2) ; (1，-1) 一 一 边界 样本 以 及 (1,0)) 的 概率 方法 : 




















print('P([0, -2]=G1) = {:.3f} and P([0, -2]=G2) = {:.3f}'.format (*list 
(gm.predict proba([[0.0, -2.0]]1) .squeeze()))) 

print('P([1, -1]=G1) = {:.3f} and P([1, -1]=G2) = {:.3f}'.format (*list 
(gm.predict proba([[1.0, -1.0]]1) .squeeze()))) 

print('P([1, 0]=G1) = {:.3f} and P([1, 0]=G2) = {:.3f}'.format(*1list 
(gm.predict proba([[1.0, 0.0]]).squeeze()))) 

代码 块 输出 如 下 所 示 ; 

P([0, -2]=G1) = 0.987 and P([0, -2]=G2) = 0.013 

P([1l, -1]=G1) = 0.354 and P([1, -1]=G2) = 0.646 

P([1, 0]=G1) = 0.068 and P([1, 0]=G2) = 0.932 

我 建议 大 家 使 用 其 他 协 方差 类 型 重复 该 示例 ， 然 后 将 所 有 硬 分 配 与 K-means 进行 





比较 。 
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5.4.2 用 AIC 和 BIC 方法 评估 高 斯 混合 的 性 能 


由 于 高 斯 混合 是 一 种 概率 模型 ， 因 此 要 找到 最 佳 分 量 数 ， 需 要 采用 的 方法 不 同 于 前 几 章 中 
分 析 的 方法 。 使 用 最 广泛 的 技术 之 一 是 Akaike 信息 准则 (Akaike Information Criterion，AIC )， 
它 基 于 信息 理论 (参见 期 刊 JEEE Transactions on Automatic Control 的 论文 4 new look at the 
statistical model identification)。 如 果 一 个 概率 模型 具有 n, 个 参数 〈 即 必须 学 习 的 单个 值 》 
并 且 达 到 最 大 负 对 数 似 然 Lj， 则 AIC 定义 如 下 : 
AIC(n, ,Ly) = 2n, — 2L,,, 


p? opt 


a A be 第 一 个 是 关于 价值 本 身 ，AIC 越 小 ， 分 数 越 高 。 事 实 上 ， 
考虑 到 Occam 的 剃刀 原理 ， 模 型 的 目标 是 用 最 少数 量 的 参数 实现 最 佳 的 似 然 性 。 第 二 个 含 
义 与 信息 理论 息息相关 (我 们 不 讨论 数学 上 烦琐 的 细节 ), 特别 是 数据 生成 过 程 和 通用 概率 
模型 之 间 的 信息 丢失 问题 。 我 们 可 以 证 明 AIC 的 渐 近 最 小 化 〈 当 样本 数 趋 于 无 穷 大 时 ) 等 
同 于 信息 丢失 的 最 小 化 。 考 虑 到 基于 不 同 数量 的 分 量 (n, 是 所 有 权重 、 平 均值 和 协 方差 参 
数 的 总 和 ) 的 几 个 高 斯 混合 ， 具 有 最 小 AIC 的 配置 对 应 于 以 最 高 精度 再 现 数 据 生 成 过 程 的 
模型 。AIC 的 主要 局 限 性 在 于 小 数据 集 。 在 这 种 情况 下 ， 对 于 大 量 参数 ，AIC 往往 达到 其 
最 小 值 ， 这 与 Occam 的 剃刀 原理 形成 了 对 比 。 但 是 ， 在 大 多 数 实 际 情况 下 ，AIC 提供 了 一 
个 有 用 的 相对 衡量 标准 ， 可 以 帮助 数据 科学 家 排除 许多 配置 并 且 仅 分 析 最 有 希望 的 配置 。 


当 需 要 强制 将 参数 的 数量 保持 在 非常 低 的 水 平时 ， 我 们 可 以 采用 贝 叶 斯 信息 度量 
(Bayesian Information Criterion，BIC)， 其 定义 如 下 : 











































































































































































































































































































































































































BIC(n,n,,L,)= log(n)n, —2L 


opt 


在 前 面 的 公式 中 ,nn 是 样本 数 ( 例 如 当 n= 1000 并 且 使 用 自然 对 数 时 ， 征 罚 约 为 6.9)。 
因此 ，BIC 几乎 等 同 于 AIC， 甚 至 对 参数 数量 的 惩罚 更 强 。 然 而 ， 即 使 BIC 倾向 于 选择 较 
小 的 模型 ， 结 果 通 常 也 不 如 AIC 可 靠 。BIC 的 主要 优点 是 当 n 一 时 ， 数 据 生 成 过 程 pa 
和 模型 p,, (具有 最 小 BIC) 之 间 的 Kullback-Leibler 散 度 趋 于 0: 


Dn (2 2 


data \™ i 

































































Dr (p, | paaa) = >》 pa (%) log— > 0D p,(7) 一 paaal™) 
i 


当 两 个 分 布 相 同时 ， 由 于 Kullback-Leibler 散 度 为 空 ， 因 此 前 一 个 条 件 意味 着 BIC 倾向 
于 渐 近 地 选择 准确 再 现 数据 生成 过 程 的 模型 。 


现在 ， 让 我 们 考虑 前 面 的 示例 ， OA scikit-learn 
将 这 些 度量 作为 GaussianMixture 类 的 方法 (方法 aic0 和 方法 bic0) 进行 了 合并 。 此 外 , 我 
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们 还 需要 计算 每 个 模型 实现 的 最 终 对 数 似 然 。 这 可 以 通过 乘 以 方法 score0 获 得 的 值 〈 即 每 
对 数 似 然 乘 以 样本 数 ) 来 实现 ， 如 下 所 示 : 


个 样本 的 平均 











from sklearn.mixture import GaussianMixture 


n max components = 20 


aics = [ 


bics = [ 
log_like 


] 
] 
lihoods = [] 


for n in range(l, n max components + 1): 


gm = GaussianMixture(n components=n, random state=1000) 


gm .fit (人 


X) 


aics.append (gm.aic (X)) 


bics.append(gm.bic (xX)) 


log likelihnoods.append (gm.score(X) * nb 


samples) 


高 斯 混合 的 AIC、BIC 和 对 数 似 然 如 图 5-8 所 示 。 


1660 


1620 


12345678 


AC 


BIC 


Log-likelihood 
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图 5-8 高 























Number of Gaussians 


Number of Gaussians 





斯 混合 的 AIC、BIC 和 对 数 似 然 ( 分 量 数量 在 (1，20) 之 间 ) 

















在 这 种 情况 下 , 我 们 知道 数据 集 是 由 两 个 高 斯 分 布 生 成 的 , 但 假设 我 们 没有 这 条 信息 。 
AIC 和 BIC 的 (局 部 ) 最 小 值 都 是 n=2。 然 而 ， 当 BIC 继续 变 得 越 来 越 大 时 ，AIC 的 伪 









































全 局 最 小 值 为 











nc 二 18。 因 此 ， al he cid sa an sa 

















多 具有 很 小 的 方差 的 高 斯 数据 集 进行 超 细 分 
之 间 的 差异 不 是 很 大 ， 因 此 ， 考 虑 到 它 
了 这 种 选择 。 事 实 上 ， 即 使 还 存在 对 应 于 7 





BIC 大 得 多 。 












































i 得 





让 。 另 一 方面 ， 与 其 他 值 相 比 ，m=2 和 mm= 18 
单 得 多 ， 我 们 也 可 以 选择 前 一 种 配置 。BIC 确认 














前 解释 的 那样 ， 











个 双 变量 高 斯 需 








c= 18 的 局 部 最 小 值 ， 其 值 也 比 mx = 2 所 达到 的 











这 种 行为 是 由 


个 变量 作为 权重 ， 两 个 变量 作为 3 











于 样本 大 小 而 造成 的 额外 损失 。 由 于 每 











均值 ，4 个 变量 作为 协 方差 矩阵 ， 因 此 





人 


当 玉 =2 时 , 我 们 




















由 于 有 300 个 样本 ，BIC 受到 











对 数 似 然 增加 (因为 在 极端 


相当 于 Dirac’s delta)， 参 数 


在 没有 任何 额外 代价 的 情况 下 , 更 


情况 下 ， 每 个 点 都 可 
的 数量 在 模型 选择 

















得 到 到 =2x(L+2+4 和 =14, 当 n= 18 时 , 我 们 
log(300) 守 5.7 的 惩罚 , 这 导致 BIC 增加 约 350。 当 nn 变 大 时 ， 
以 被 视 为 由 
过 程 中 起 主要 作用 。 



































大 的 模型 和 


可 能 被 视 为 最 佳 选择 , 但 在 
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得 到 n, = 18x(1 +2+4)=126。 


























\ 有 和 零 方差 的 单个 高 斯 生成 ， 








聚 类 过 程 中 ， 








我 们 也 需要 强制 执行 最 大 分 离 原则 。 这 种 情况 与 较 少 的 分 量 有 一 定 关 系 ， 因 此 ，BIC 应 该 








称 为 最 佳 
议 的 ze。 此 尹 
并 





方法 


法 。 












































， 我 们 还 应 考虑 基本 
可 以 通过 排除 所 有 那些 不 切合 实际 的 值 来 B 





ak 时 
上 月 


知识 


AN? 



























































般 来 说 ， 我 建议 比较 两 个 标准 ， 试 图 找到 对 应 于 AIC 和 BIC 之 间 最 大 协 
因为 许多 数据 生成 过 程 具 
民 制 潜在 分 量 的 范围 。 我 请 读者 用 n= 18 重 








有 明确 定义 的 行为 ， 





Wy 









































































































































复 前 面 的 例子 ， 绘 制 所 有 高 斯 图 并 比较 某 些 特定 点 的 概率 。 
5.4.3 ” 贝 叶 斯 高 斯 混合 选择 成 分 

贝 叶 斯 高 斯 混合 模型 是 基于 变 分 框架 的 标准 高 斯 混合 的 扩展 。 这 一 主题 非常 先进 ， 需 
要 全 面 的 数学 描述 ， 而 这 超出 了 本 书 的 范围 (参见 期 刊 JEEE Transactions On Systems 的 论 
文 Variational Learning for Gaussian Mixture Models)。 但 是 ， 在 讨论 主 属性 之 前 ， 我 们 要 先 
理解 主 概念 和 差异 ， 这 会 对 后 面 学 习 有 所 帮助 。 假 设 我 们 有 一 个 数据 集 X， 以 及 用 疝 量 0 
参数 化 的 概率 模型 。 在 前 面 的 部 分 中 ， 你 所 看 到 的 概率 p(X10) 的 似 然 是 Zb 习 ， 其 最 大 化 将 


























在 给 定数 据 集 的 情况 下 ， 





率 的 似 然 性 成 正比 。 在 标准 





导致 生成 具有 最 大 概率 的 铸模 型 。 
完全 取决 于 处 。 如 果 我 们 引入 贝 叶 

















晶 是 ， 我 们 } 


没有 对 参数 施加 任何 限 和 








它们 的 最 终 值 





由， 












































斯 定 >» 由 





1 可 以 得 





} 到 以 下 结果 : 


Pp(OIX)=ap(X10)p(9) 

















MLE 中 ， 我 们 只 使 














验 知识 《就 概率 分 布 而 言 ) 





以 处 理 的， 并 且 先 前 的 p(9) 通 常 很 难 定义 ， 因 











首 最 大 化 p(0| 加 或 比 





We 


等 式 左 侧 是 参数 的 后 验 概率 ， 并 且 我 们 知道 它 与 参数 先 验 概 
] p(X10)， 但 是 我 们 还 可 以 包括 关于 0 的 先 






































为 关 了 








高 概率 区 域 的 了 解 不 够 。 出 于 这 个 原 

















因 ， 我 们 最 好 ; 




















各 参数 建 模 成 具有 参数 1 的 概率 分 布 《 所 有 特定 参数 的 集合 ， 例 如 平均 值 、 





系数 等 )， 并 引入 一 个 近似 真实 分 布 的 变 分 后 验 (Variational Posterior ) gq(9|X 刀 。 





的 工具 是 称 ; 


J 文思 





这 村 
节 )， 这 使 





王八 


我 们 可 以 轻松 找 至 

















存在 3 组 不 同 的 参数 ， 并 



































这 些 选择 的 细节 ， 但 理解 
在 贝 






































贝 叶 斯 推理 技术 的 关键 要 素 ( 
I 最 佳 参 数 ， 而 无 须 使 月 





尔 可 以 在 上 述 论 文中 找到 更 多 细 








实际 的 p(0|X)。 特 别 是 在 高 斯 混合 中 ， 
每 一 组 都 以 适当 的 分 布 建 模 。 在 这 种 情况 下 ， 我 们 不 希望 讨论 
其 基本 原理 是 有 必要 的 。 
叶 斯 框架 中 ,给 定 似 然 p(XI0)， 概 率 密度 函数 P(O)， 与 后 验 函 数 p(0|X) 属 于 同一 系 
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列 ， 称 为 共 斩 先 验 〈Conjugate Prior) 函数 。 在 这 种 情况 下 ， 此 过 程 显然 可 以 被 简化 ， 
为 似 然 的 影响 仅 限 于 修改 前 一 个 参数 。 由 于 似 然 是 正 态 的 ， 因 此 ， 为 了 对 均值 进行 建 模 ， 

我 们 可 以 使 用 正 态 分 布 ( 相 对 于 均值 的 共 斩 先 验 )》 对 于 协 方差 矩阵 , 我 们 可 以 使 用 Wishart 
分 布 ( 即 相对 于 均值 的 逆 和 矩阵 的 共 轿 先 验 )。 在 这 个 讨论 中 ,我 们 没有 必要 熟悉 所 有 这 些 分 


























布 ( 正 态 分 布 除外 )， 













































































是 记 住 它们 是 共 思 先 验 是 很 有 帮助 的 。 因 此 ， 给 定 有 关 参 数 的 初始 
























































用 属性 。 换 句 话说 ， 











猜测 ， 在 给 定数 据 集 的 情况 下 ， 似 然 性 的 作用 是 调整 并 最 大 化 它们 的 联合 概率 。 


由 于 对 混合 的 权重 进行 了 归 一 化 处 理 ， 因 此 它们 的 总 和 必须 始终 等 于 1。 并 且 当 我 们 
想 要 仅 自动 选择 更 多 的 分 量 的 子 集 时 ， 我 们 可 以 使 用 Dirichlet 分 布 ， 该 分 布 具有 稀 玻 的 有 















































给 定 一 组 权重 wi, w>, …… ws，Dirichlet 分 布 倾 向 于 使 大 多 数 权重 的 概率 









































保持 相当 低 ， 而 较 小 的 非 零 权 重子 组 起 决定 作用 。Dirichlet 过 程 提 供 了 一 种 替代 方案 ， 这 



































是 一 种 产生 概率 分 布 的 特定 随机 过 程 。 在 这 两 种 情况 下 ， 我 们 的 目标 是 调整 单个 参数 〈 称 为 
权重 浓度 参数 )， 该 参数 能 增加 或 减少 稀 玻 分布 的 概率 《或 简称 为 Dirichlet 分 布 的 稀 玻 性 )。 


scikit-learm 实现 了 贝 叶 斯 高 斯 混合 (通过 BayesianGaussianMixture 类 )， 这 可 以 基于 Dirichlet 


过 程 和 分 布 。 在 上 















































示例 中 ， 我 们 将 保留 默认 值 〈 进 程 ) 并 检查 不 同 浓度 值 的 行为 “参数 


























weight_concentration_prior)。 对 于 逆 协 方差 ， 我 们 也 可 以 调整 高 斯 的 平均 值 和 Wishart 的 自由 度 。 











然而 ,在 没有 任何 

















\ 体 的 先 验 知识 情况 下 ,设置 这 些 值 是 非常 困难 的 (我 们 假设 不 知道 平均 值 








位 于 何 处 或 协 方差 和 
于 蕊 的 均值 (位移 可 
向 蕊 的 平均 值 ， 而 较 大 的 值 时 增加 位 移 值 )， 并 且 自 由 度 的 数量 《Wishart) 被 设置 为 等 于 特征 


























































































































E 阵 的 结构 )， 最 好 保留 从 概率 结构 得 出 的 值 。 因 此 ， 平 均值 (高 斯 ) 将 等 























以 用 参数 mean_precision_prior 控制 ， 值 小 于 1.0 时 侨 向 于 将 单个 平均 值 移 






























































的 数量 (ZX 的 维度 )。 在 许多 情况 下 ， 这 些 参 数 由 学 习 过 程 来 自动 调整 ， 无 需 更 改 其 初始 值 。 
相反 ， 我 们 可 以 调整 参数 weight_concentration_prior， 以 增加 或 减少 活动 分 量 的 数量 
( 即 其 权重 不 接近 零 或 远 低 于 其 他 权重 )。 
在 此 示例 中 ， 我 们 将 使 用 5 个 部 分 重 又 的 高 斯 分 布 生成 500 个 二 维 样本 “特别 地 ， 其 





















































中 3 个 共享 非常 大 的 重合 区 域 ): 








from sklearn.datasets import make blobs 


nb _ samples 


nb centers 


500 
5 





XxX, Y = make blobs (n samples=nb samples, n features=2, center box=[-5, 5], 


centers=nb centers, random state=1000) 





让 我 们 从 一 个 大 的 权重 集中 参数 (1000〉 开始 ， 最 大 分 量 数 等 于 5。 在 这 种 情况 下 ， 我 
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中 


们 期 望 找到 大 量 〈 可 能 是 5 个 ) 的 有 效 分 量 ， 因 为 Dirichlet 过 程 无 法 实现 高 级 别 的 稀 玻 性 : 

















(通过 


可 能 是 
数 〈 即 0.1)。 如 果 该 近似 值 可 以 使 用 较 少 的 高 斯 分 布 成 功 生成 和 则 应 找到 一 个 空 权重 : 














from sklearn.mixture import BayesianGaussianMixture 
gm = BayesianGaussianMixture(n components=5, weight concentration prior=1000, 
max iter=10000, random state=1000) 


gm.fit(X) 


print('Weights: {} .format (gm.weights ) ) 





代码 段 的 输出 如 下 : 


Weights: [0.19483693 0.20173229 0.19828598 0.19711226 0.20803253] 



































正如 预期 的 那样 ， 所 有 分 量 的 权重 大 至 相同。 为 了 得 到 进一步 的 确认 ， 我 们 可 以 检查 
函数 argmax()〉 几乎 还 没有 分 配给 每 个 样本 的 样本 数量 ， 如 下 所 示 ; 


Y pred = gm.fit predict (Xx) 






































print((Y pred == 0) .sum()) 
print((Y pred == 1) .sum()) 
print((Y pred == 2) .sum()) 
print((Y pred == 3) .sum()) 
print((Y pred == 4) .sum()) 
输出 如 下 : 

96 

102 

97 

98 

107 














因此 ， 平 均 而 言 ， 所 有 高 斯 都 产生 相同 数量 的 点 。 最 终 配 置 如 图 5-9 所 示 。 


该 模型 通常 是 可 以 接受 的 ， 但 我 们 假设 我 们 知道 潜在 原因 的 数量 ( 即 生成 高 斯 分 布 ) 
是 4 而 不 是 5。 我 们 可 以 尝试 的 第 一 件 事 是 保持 原始 的 最 大 分 量 数 3 i 






















































































星 











gm = BayesianGaussianMixture(n components=5, 





weight concentration prior=0.1, 
max iter=10000, random state=1000) 
gm.fit (Xx) 
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print('Weights: {}'.format (gm.weignhnts )) 


Gaussian 1 
Gaussian 2 
Gaussian 3 
Gaussian 4 
Gaussian 5 








poeeoex 


XA 


Xo 


图 5-9 5 个 活动 分 量 的 最 终 配 置 


























输出 如 下 所 示 : 


Weights: [3.07496936e-01 2.02264778e-01 2.94642240e-01 1.95417680e-01 
1.78366038e-04] 








Nl 











可 以 看 出 ， 第 5 个 高 斯 函数 的 权重 比 其 他 高 斯 函数 的 权重 要 小 得 多 ， 并 且 可 以 完全 于 





























弃 〈 请 你 检查 是 否 几 乎 没有 分 配 样 本 )。 上 共有 4 个 活动 分 量 的 最 终 配置 如 图 5-10 所 示 。 


各 











图 5-10 4 个 活动 分 量 的 最 终 配 置 
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可 以 看 出 ， 该 模型 已 经 执行 了 分 量 数 量 的 自动 选择 ， 并 且 它 已 经 将 较 大 的 右 侧 斑点 
拆 分 为 两 个 部 分 ， 这 两 个 部 分 几乎 是 正 交 的 。 即 使 模型 使 用 大 量 初始 分 量 〈 例 如 10) 进 
行 训 练 ， 该 结果 仍然 会 保持 不 变 。 作 为 练习 ， 我 建议 用 其 他 值 重 复 该 示例 ， 检 查 一 下 权 
之 间 的 差异 。 贝 叶 斯 高 斯 混合 非常 强大 ， 因 为 它们 能 够 避免 过 度 拟 合 。 实 际 上 ， 虽 然 
示 准 高 斯 混合 将 通过 减少 它们 的 协 方差 来 使 用 所 有 分 量 ， 但 必要 时 (如 和 覆盖 密集 区 域 )， 
这 些 模型 利用 Dirichlet 过 程 /分 布 的 特性 ， 以 避免 激活 太 多 分 量 。 例 如 通过 检查 模型 可 实 
现 的 最 小 分 量 数 ， 可 以 很 好 地 了 解 潜在 的 数据 生成 过 程 。 在 没有 任何 其 他 先 验 知识 的 情况 
下 ， 这 样 的 值 是 最 终 配置 的 一 个 良好 候选 者 ， 因 为 较 少数 量 的 分 量 也 将 产生 较 低 的 最 终 可 
能 性 。 当 然 , 我 们 可 以 将 AIC/BIC 与 此 方法 一 起 使 用 ， 以 便 获 得 另 一 种 形式 的 确认 。 然 而 ， 
该 模型 与 标准 高 斯 混合 的 主要 区 别 在 于 其 可 能 包括 来 自 专家 的 先 验 信息 《例如 均值 和 协 方 
差 结构 的 原因 )。 出 于 这 个 原因 ， 我 请 你 通过 更 改 mean_precision_prior 的 值 来 重复 该 示例 。 
例如 ， 你 可 以 将 参数 mean_prior 设置 为 与 式 平 均值 不 同 的 值 并 调整 mean_precision prior， 
从 而 强制 模型 基于 某 些 先 验 知识 实现 不 同 的 分 制 〈 即 区 域 中 的 所 有 样本 应 该 由 特定 分 量 
生成 )。 


5.4.4 生成 高 斯 混合 


高 斯 混合 模型 主要 用 来 生成 模型 。 这 意味 着 训练 过 程 的 目标 是 优化 参数 ， 以 最 大 程度 
提高 模型 生成 数据 集 的 可 能 性 。 如 果 假 设 是 正确 的 ， 并 且 闷 已 经 从 特定 数据 生成 过 程 中 采 
样 ， 则 最 终 近似 值 必须 能 够 生成 所 有 其 他 可 能 的 样本 。 换 名 话说 ,我 们 假设 如 EX 是 IDD, 和 一 
Pu 因此 ， 当 找到 最 佳 近似 值 pspuu 时， 其 概率 在 疡 高 的 情况 下 也 很 有 可 能 由 Pu 生成 。 

在 这 个 例子 中 ， 我 们 希望 在 半 监 督 场景 中 采用 高 斯 混合 模型 。 这 意味 着 我 们 有 一 个 包 
含 标记 样本 和 未 标记 样本 的 数据 集 ， 并 且 和 希望 利用 标记 的 样本 作为 基本 事实 ， 找 出 可 以 生 
成 整个 数据 集 的 最 佳 混合 。 当 标记 非常 大 的 数据 集 困 难 且 昂贵 时 ， 这 种 情况 非常 普遍 ， 而 
为 了 克服 这 个 问题 ， 我 们 可 以 标记 一 个 均匀 采样 的 子 集 ， 并 训练 一 个 生成 模型 ， 该 模型 能 
够 以 最 大 的 可 能 性 生成 剩余 的 样本 。 

我 们 将 使 用 更 新 的 权重 、 均 值 和 协 方差 矩阵 公式 ， 这 些 公式 在 主要 章节 中 通过 一 个 简 
单 的 过 程 进行 讨论 ， 如 下 所 示 。 

。 所 有 标记 的 样本 都 被 认为 是 基本 事实 ， 所 以 如 果 有 大 个 类 ， 我 们 还 需要 定义 磊 个 分 
量 并 将 每 个 类 分 配给 其 中 一 个 。 因 此 ， 如 果 x 是 用 yi= {1,2,…, 他 标记 的 通用 
样本 ， 则 相应 的 概率 向 量 将 是 p(xi) = (0, 0,…, 1, 0,…, 0)， 其 中 1 对 应 于 与 yj; 类 
相关 联 的 高 斯 。 换 句 话说 ， 我 们 信任 标记 的 样本 并 强制 单个 高 斯 生成 具有 相同 
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标签 的 子 集 。 











。 所 有 未 标记 的 样本 均 以 标准 方式 处 理 , 并 且 通 过 将 权重 乘 以 每 个 高 斯 下 的 概率 来 确 














定 概率 向 量 。 











让 我 们 首先 生成 一 个 包含 500 个 二 维 样本 的 数据 集 (标记 100 个 ， 

















实 标签 为 0 和 1， 未 标记 的 标记 等 于 -1: 
from sklearn.datasets import make blobs 


nb_samples = 500 
nb unlabeled = 400 

















其 余 的 未 标记 )， 真 














X, Y = make _ blobs (nn_samples=nb samples, n features=2, centers=2, 


cluster std=1.5, random state=100) 


unlabeled idx = 
replace=False, size=nb unlabeled) 


Y[unlabeled idx] -1 





np.random.choice (np.arange (0, nb samples, 


1), 








在 这 一 点 上 , 我 们 可 以 初始 化 高 斯 参数 (权重 选择 相等 , 协 方差 矩阵 必须 是 半 正 定 的 )。 

















如 果 读者 不 熟悉 这 个 概念 ， 我 们 可 以 说 对 称 方 矩阵 4 多 "是 








XxX AX0 V xz(0)eR’ 


此 外 ， 所 有 特征 值 都 是 非 负 的 ， 
章 谈论 PCA 时 非常 有 用 )。 















































如 果 随 机 选择 协 方差 矩阵 ， 为 了 达到 半 正 定 ， 有 必要 将 每 个 矩阵 乘 以 








import numpy as np 





ml = np .array([=2.0; =2.5]) 

1 snp.array([ [ls07 0]; 
LQ OY 

ql = 0.5 

m2 = np.array ([1.0, 3.0]) 

c2 = np.array ([[2.0, -1.0], 
= 村 0 nD] 

q2 = 0.5 


数据 集 和 初始 高 斯 配置 如 图 5-11 所 示 。 





并 且 特 征 向 量 生成 一 个 标准 





半 正 定 上 














正 交 基 ( 这 个 概念 在 第 








内 ， 如 果 : 

















转 置 矩阵 : 
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® Class1 
儿 Class2 
x Unlabeled 


x* 


XI 

















图 5-11 数据 集 〈 未 标记 的 样本 用 x 标记 ) 和 初始 配 


现在 ， 我 们 可 以 执行 一 些 少量 的 迭代 《在 本 示例 中 ， 设 定 为 10 次 迭代 )， 遵 循 先前 定 
义 的 规则 (当然 ， 也 可 以 检查 参数 的 稳定 性 ， 以 便 停止 迭代 )。 使 用 SciPy multivariate_normal 
类 计算 在 每 个 高 斯 下 的 概率 : 


from scipy.stats import multivariate normal 


















































nb iterations = 10 


for i in range (nb iterations): 
Pij = np.zeros((nb samples, 2)) 
for i in range (nb samples): 
if Y[i] == -1: 
pl = multivariate normal.pdf (X[i], ml, cl, allow singular=True) 





大 ql 
Pp2 = multivariate normal.pdf (X[i], m2, c2, allow singular=True) 
大 q2 
Pij[i] = [pl, p2] / (pl + p2) 
else: 
Pij[i, :] = [1.0, 0.0] if Y[i] == 0 else [0.0, 1.0] 


过 
| 


= np.sum(Pij, axis=0) 


np.sum(np.dot (Pij.T, X), axis=0) 
ml = np.dot (Pij[:, 0], X) / n[0] 

m2 = np.dot (Pij[:, 1], X) / n[1] 

ql = n[0] / float (nb samples) 





q2 = n[1] / float (nb samples) 
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cl = np.zeros((2, 2)) 
c2 = np.zeros((2, 2)) 
for t in range (nb samples): 
cl += Pij[t, 0] * np.outer (X[t] -ml, X[t] -ml) 
c2 += Pij[t, 1] * np.outer (X[t] -m2, X[t] -m2) 
cl /= n[0] 
c2 /= n[1] 











过 程 结束 时 的 高 斯 混合 参数 如 下 : 











print('Gaussian 1:') 
print (q1) 

print (ml) 

print (c1) 
print('\nGaussian 2:') 
print (gq2) 

print (m2) 

print (c2) 
代码 段 的 输出 如 下 : 


Gaussian 1: 

0.4995415573662937 

[ 0.93814626 -4.4946583 |] 

[FL 2 530423419, =0.; 109523659 
[=0#10952365” 26275963]] 


Gaussian 2: 
0.5004584426337063 
[S15250L526" :63279170295 |] 
[[ 2.46061144 -0.08267972] 
[-0.08267972 2.54805208]] 


正如 预期 的 那样 ， 由 于 数据 集 的 对 称 性 ， 权 重 几乎 保持 不 变 ， 同 时 均值 和 协 方差 矩阵 
也 进行 了 更 新 ， 以 最 大 化 似 然 。 最 终 配 置 如 图 5-12 所 示 。 


可 以 看 出 ， 两 个 高 斯 都 已 成 功 优 化 ， 从 一 些 上 共有 可 信和 参考 作用 的 标记 样本 开始 ， 能 够 
生成 整个 数据 集 。 这 种 方法 非常 强大 ， 因 为 它 允 许 我 们 在 模型 中 包含 一 些 先 验 知识 而 无 须 
任何 修改 。 然 而 ， 由 于 标记 样本 具有 等 于 1 的 固定 概率 ， 因 此 该 方法 在 异常 值 方面 不 是 很 
健壮 。 如 果 样 本 尚未 通过 数据 生成 过 程 生成 或 受 噪声 影响 , 则 可 能 导致 模型 放 错 高 斯 分 布 。 
但 是 ， 通 常 应 忽略 这 种 情况 ， 因 为 当 评 估 中 包括 任何 先 验 知识 时 ， 我 们 都 必须 对 其 进行 预 
先 评估 ， 以 检查 其 是 否 可 靠 。 此 步骤 是 必需 的 ， 因 为 这 样 可 以 避免 模型 被 强制 仅 学 习 原 始 

























































































































































































































































































5.5 总 结 139 
数据 生成 过 程 的 一 部 分 的 风险 。 相 反 ， 当 标记 的 样本 真正 代表 了 基础 过 程 时 ， 它 们 的 加 入 
减少 了 错误 并 加 快 了 收敛 速度 。 我 建议 读者 在 引入 一 些 噪声 点 〈 例 如 〈-20,-10)) 之 后 
复 该 示例 ， 并 比较 几 个 未 标记 测试 样本 的 概率 。 
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5-12 ”经 过 10 次 迭代 后 的 最 终 配 置 


























在 本 章 中 ， 我 们 介绍 了 一 些 最 常见 的 软 聚 类 方法 ， 重 点 介绍 了 它们 的 属性 和 特性 。Fuzzy 
c-means 是 基于 模糊 集 概念 的 经 典 K-means 算法 的 扩展 。 聚 类 不 会 被 视 为 互 斥 分 区 ， 而 是 
可 以 与 其 他 聚 类 重 有 登 的 灵活 集 。 所 有 样本 总 是 分 配给 所 有 聚 类 ， 但 是 权重 向 量 确定 每 个 聚 
类 的 隶属 度 。 连 续 的 聚 类 可 以 定义 部 分 重 登 的 属性 ， 因 此 ， 对 于 两 个 或 更 多 聚 类 ， 给 定 样 
本 的 权重 可 以 非 空 ， 而 大 小 决定 了 它 属于 每 个 段 的 数量 。 

















































































































高 斯 混合 是 一 种 生成 过 程 ， 它 基于 这 样 的 假设 ， 即 可 以 用 高 斯 分 布 的 加 权 和 近似 实际 
的 数据 生成 过 程 。 在 给 定 预定 义 数量 的 分 量 的 情况 下 ， 对 模型 进行 训练 ， 以 获得 最 大 似 然 。 
我 们 讨论 了 如 何 使 用 AIC 和 BIC 作为 性 能 度量 ， 以 便 找 出 最 优 的 高 斯 分 布 数 。 我 们 还 简要 
介绍 了 贝 叶 斯 高 斯 混合 的 概念 ， 并 研究 了 用 现 有 知识 如 何 自动 选择 一 小 部 分 活动 分 量 。 在 
最 后 一 部 分 中 ， 我 们 讨论 了 半 监 督 高 斯 混合 的 概念 ， 展 示 了 如 何 使 用 一 些 标记 样本 作为 指 
导 ， 以 优化 具有 更 多 未 标记 点 的 训练 过 程 。 
















































































在 第 6 章 中 ， 我 们 将 讨论 核 密度 估算 的 概念 及 其 在 异常 检测 领域 的 应 用 。 
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5.6 ”问题 


1. 软 聚 类 和 硬 聚 类 之 间 的 主要 区 别 是 什么 ? 

2. Fuzzy c-means 可 以 轻松 处 理 非 凸 聚 类 。 正 确 吗 ” 

3. 什么 是 高 斯 混合 的 主要 假设 ? 

4. 假设 两 个 模型 达到 相同 的 最 优 对 数 似 然 ， 但 是 第 一 个 的 AIC 是 第 二 个 的 两 倍 。 这 
意味 着 什么 ? 

5. 考虑 到 第 4 个 问题 ， 我 们 更 希望 使 用 哪 种 模型 ? 

6. 为 什么 要 将 Dirichlet 分 布 作为 贝 叶 斯 高 斯 混合 权重 的 先 验 ? 

7. 假设 我 们 有 一 个 包含 1000 个 标记 样本 的 数据 集 ， 其 值 已 经 过 专家 认证 。 我 们 从 同 
一 来 源 收集 5000 个 样本 , 但 并 不 想 支 付 额外 的 标签 费用 。 我们 该 如 何 才能 将 它们 融入 我 们 
的 模型 中 ? 
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在 本 章 中 ， 我 们 将 讨论 无 监督 学 习 的 实际 应 用 。 目 标 是 训练 能 够 重 现 特定 数据 生成 过 
程 的 概率 密度 函数 的 模型 ， 或 确定 给 定 新 样本 是 内 值 (Inlier) 还 是 异常 值 COutlier) 的 模 
型 。 一 般 来 说 ， 我 们 想 的 具体 目标 是 发 现 异 常 ， 这 些 异 常 通常 是 模型 不 太 可 能 的 样本 《〈 即 
给 定 概率 分 布 p(x) <<4 的 模型 ， 其 中 4 是 预定 义 的 阔 值 )， 或 远离 主要 分 布 的 质心 。 

本 章 将 着 重 讨论 以 下 主题 。 

。 概率 密度 函数 及 其 基本 属性 简介 。 

方 图 及 其 局 限 性 。 

玄 密 度 估 计 (Kernel Density Estimation，KDE ) 。 

。 带宽 选择 标准 。 
。 异常 检测 的 单 变量 示例 。 
。 使 用 KDD Cup 99 数据 集 进行 HTTP 攻击 的 异常 检测 的 示例 。 
。 单 类 支持 向 量 机 。 


。 基于 孤立 森林 的 异常 检测 。 


6.1 技术 要 求 
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心 | 









































本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+ 《强烈 推荐 Anaconda 发 行 版 )。 
e 库 。 
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m SciPy 0.19+。 

@ NumPy 1.10+。 

m scikit-learn 0.20+。 
m pandas 0.22+。 

m Matplotlib 2.0+。 

m seaborn 0.9+。 


示例 代码 可 在 本 书 配套 的 代码 包 中 找到 。 























6.2 ”概率 密度 函数 








在 前 几 章 中 ,我 们 始终 假设 数据 集 是 从 隐 式 数据 生成 过 程 pg 




















提取 的 ， 所 有 算法 都 假 














定 x; EX 为 独立 同 分 布 并 且 均 匀 采 样 。 我 们 假设 可 以 足够 准确 地 表示 Pau; 























学 习 用 有 限 的 初始 知识 进行 概括 。 相 反 ， 在 本 章 中 ， 我 们 























因此 算法 可 以 














感 兴 趣 的 是 对 Pdata 直 

















接 建 模 且 没有 








任何 特定 限制 (例如 高 斯 混合 模型 通过 对 分 布 结构 施加 约束 来 实现 此 目标 )。 在 讨论 一 些 非 
































常 强大 的 方法 之 前 , 我 们 简要 回顾 在 可 测量 子 集 XS 因 "上 定义 的 通 月 


























连续 概率 密度 函数 p(x) 


的 属性 是 有 帮助 的 〈 为 了 避免 混淆 ， 我 们 将 用 p(x) 表 示 密 度 函 数 ， 用 P(x) 表 示 实 际 概率 ): 
| px)dx =1 and P(xeC)= I p(x)dx 























例如 单 变量 高 斯 分 布 完 全 由 均值 人 和 方差 表征 : 
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270 

















_(x-u 
3 
e 20 





p(X)= 


y) 





因此 ，x E (a, 5b) 的 概率 如 下 : 


» 1 _Cp) 
Pla<x<b)=| 一 6 ’” dr 
. /2 区 ar? 





即使 连续 空间 《例如 高 斯 ) 中 某 个 事件 的 绝对 概率 为 零 〈 因 为 积分 具有 



























































概率 密度 函数 也 提供 了 一 种 非常 有 用 的 度量 ， 用 于 理解 












































个 样本 比 另 一 个 相 


相同 的 极 值 )， 
本 更 可 能 的 程 
度 。 例 如 考虑 高 斯 分 布 W0, 1)， 密 度 p(1)= 0.4， 而 当 x = 2 时， 密度 p(1) = 0.4。 这 意味 着 








x=1 的 可 能 性 是 x=2 的 0.4/0.05=8 倍 。 以 相同 的 方式 ,我 们 可 以 设置 一 个 可 接受 的 头 值 





0 并 定义 满足 p(xi) < a 的 所 有 样本 x; 为 异常 样本 《例如 在 本 示例 5 









































PP，a = 0.01)。 这 种 选择 
是 异常 检测 过 程 中 的 关键 步骤 。 正 如 我 们 将 要 讨论 的 那样 ， 它 必须 包括 洪 在 的 异常 值 ， 但 
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这 些 异 常 值 仍然 是 常规 样本 。 
在 许多 情况 下 ， 特 征 向 量 是 用 多 维 随机 变量 建 模 的 。 例 如 数据 集 YE 加? 可 以 用 联合 概 
率 密度 函数 p(x % 习 表示 。 在 一 般 情况 下 ， 实 际 概率 需要 三 重 积分 : 


berdref 
Pla<x<bc<y<d,e<z</)=| | | px,y,2)drdydz 

















































































































很 容易 理解 ， 任 何 使 用 这 种 联合 概率 的 算法 都 会 受到 复杂 性 的 负面 影响 。 通 过 假定 单 
个 分 量 的 统计 独立 性 ， 联 合 概率 密度 函数 可 以 获得 非常 大 的 简化 ; 
D(X,y,2)= PCDJP(OD)P(2) 

不 熟悉 这 个 概念 的 读者 可 以 想象 考试 前 的 一 大 群 学 生 。 用 随机 变量 建 模 的 特征 是 学 时 
(x) 和 完成 的 课程 数 (7)， 我 们 希望 根据 这 些 给 定 因素 p(Successlx, y) 找 出 成 功 的 概率 (这 
样 的 例子 是 基于 条 件 概率 ,但 主要 概念 总 是 相同 的 )。 我 们 可 以 假设 一 个 完成 所 有 课程 的 学 
生 可 以 减少 在 家 里 的 学 习 ; 然而 ， 这 样 的 选择 意味 着 两 个 因素 之 间 的 依赖 性 (和 相关 性 )， 
而 这 些 因素 不 再 能 够 单独 评估 。 相 反 ， 我 们 可 以 通过 假设 没有 任何 相关 性 来 简化 程序 ， 并 
根据 完成 的 课程 数量 和 完成 家 庭 作业 的 时 间 来 处 理 成 功 的 边际 概率 。 重 要 的 是 要 记 住 ， 特 
征 之 间 的 独立 性 与 随后 从 分 布 中 抽取 的 样本 的 独立 性 不 同 。 当 我 们 说 数据 集 由 IID 样本 组 
成 时 ,我 们 指 的 是 每 个 样本 的 概率 p(xilxii,xi2s…,p1) = p(x?)。 换 句 话 说 ,我 们 假设 样本 之 间 
没有 相关 性 ， 这 样 的 条 件 更 容易 实现 ， 因 为 它 经 常 对 数据 集 进行 无 序 处 理 ， 以 消除 任何 残 
留 的 相关 性 。 相 反 ， 特 征 之 间 的 相关 性 是 数据 生成 过 程 的 特殊 属性 ， 不 能 被 删除 。 因 此 ， 
在 某 些 情况 下 ， 我 们 假设 独立 性 ， 是 因为 知道 它 的 影响 可 以 忽略 不 计 ， 最 终结 果 不 会 受到 
太 大 影响 ， 而 在 其 他 情况 下 ， 我 们 将 基于 整个 多 维特 征 向 量 来 训练 模型 。 现 在 我 们 可 以 定 
义 将 在 其 余部 分 中 使 用 的 异常 的 概念 。 


6.2.1 ”作为 异常 值 或 新 值 的 寞 各 


本 章 的 主要 内 容 是 在 无 监督 的 情况 下 自动 检测 异常 。 由 于 模型 不 是 基于 标记 样本 提供 的 
反馈 ， 因 此 我 们 只 能 依靠 整个 数据 集 的 属性 来 找 出 相似 之 处 并 突出 差异 。 特 别 地 ， 我 们 从 一 
个 非常 简单 但 有 效 的 假设 开始 : 常见 事件 是 正常 的 ， 而 不 太 可 能 的 事件 通常 被 视 为 异常 。 当 
然 ， 这 一 定义 意味 着 我 们 监测 的 进程 正常 运行 ， 并 且 大 多 数 结果 被 认为 是 有 效 的 。 例 如 硅 加 
工厂 必须 将 晶 圆 切 成 相等 的 块 。 我 们 知道 它们 每 个 都 是 0.2 英寸 x0.2 英寸 ( 约 0.5 厘米 x0.5 
厘米 )， 每 侧 的 标准 差 为 0.001 英寸 ( 约 0.003 厘米 )。 该 测量 已 经 在 100 万 个 处 理 步 又 之 后 
确定 。 我 们 是 否 有 权 将 0.25 英寸 x0.25 英寸 ( 约 0.64 厘米 x0.64 厘米 ) 芯片 视 为 异常 ? 当然 ， 
答案 是 肯定 的 。 事 实 上 ， 假 设 每 一 侧 的 长 度 被 建 模 为 高 斯 分 布 〈 一 个 非常 合理 的 选择 )， 其 
中 =0.2 且 o=0.001; 在 3 次 标准 差 之 后 ,概率 几乎 降 至 零 。 因 此 , 例如 Plside > 0.23) 人 0， 
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异常 检测 


并 且 具 有 这 种 尺寸 的 蕊 片 必须 明确 地 视 为 异常 。 





显然 ， 这 是 一 个 非常 简单 的 例子 ， 




















` 需 要 任何 模型 。 然 而 ， 在 现实 生活 














构 可 能 非常 复杂 ， 有 几 个 高 概率 区 域 被 低 概 率 区 域 包 
] 的 方法 对 整个 样本 空间 进行 建 模 的 原因 。 


当然 ， 异 常 的 语义 不 能 标准 化 ， 它 总 是 取决 于 正在 分 析 的 具体 问题 。 















































一 种 常用 方法 是 

















其 他 样本 之 旧 


] 的 








如 考虑 到 前 























E 离 大 于 3 


























因为 在 这 种 情况 下 ， 我 们 












































h， 密 度 的 结 
围 。 这 就 是 为 什么 我 们 必须 采用 更 通 





定义 异常 概念 的 
区 分 异常 值 和 新 值 (Novelty)。 前 者 是 数据 集中 包含 的 样本 ， 即 使 它们 与 
均值 。 因 此 , 异常 值 检测 过 程 的 目的 是 找 出 这 样 的 奇怪 样本 (〈 例 
































看 的 例子 ， 如 果 数 据 集中 包含 0.25 英寸 x0.25 英寸 的 艺 片 ， 那 么 它 显 然 是 异常 


值 )。 相 反 ， 新 值 检 测 的 目标 咯 有 不 同 ， 妥 设 使 用 仅 包含 正常 样本 


的 数据 集 ; 所以， 给 定 一 个 新 的 数据 集 ， 我 们 感 兴趣 的 是 能 否 将 其 视 为 原始 数据 生成 过 程 


或 异 第 值 〈 例 刀 

















如 果 我 们 收集 了 普通 蕊 片 的 数据 集 ， 

















描述 这 种 情 





n(D。 IIn() 
































|< 


FeCOH 时 ， 相 
大 )， 它 们 是 异常 值 ， 不 能 代表 真正 的 基础 过 程 pu。 | 








es 


多 ， 因 出 
常 样本 。 











BIOlSIxCOID 的 和 
管理 异常 和 噪声 村 





们 感 兴 趣 的 是 找 出 不 依赖 于 现 有 标签 的 发 现 方法 。 此 外 ， 为 了 避免 混淆 ， 我 们 总 是 


































































































医 率 接近 于 零 ， 我 们 可 以 : 
本 的 主要 区 别 通常 在 于 检测 
能 力 。 实 际 上 ， 虽 然 噪声 信号 肯定 会 被 破坏 ， 但 是 我 们 的 目 
时 人 们 可 以 非常 容易 地 识别 异常 3 
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[新 手 技术 人 员 问 我 们 这 个 问题 ，0.25 英寸 x0.25 英寸 芯片 是 否 是 异常 的 )， 
则 可 以 使 用 我 们 的 模型 来 回答 这 个 问题 。 
况 的 男 一 种 方法 是 将 样本 视 为 一 系列 可 能 受 可 变 噪 声 影响 的 值 : y(?) =x(D + 
本 可 归 类 为 clean: y(D) 守 x( 站 。 相 反 ， 当 ||n(D)| 守 ||x(D)I| (甚至 更 
于 噪声 的 平均 大 小 通常 比 信号 小 得 
各 异常 视 为 受 异 常 外 部 噪声 影响 的 正 
到 真正 的 异常 并 相应 地 标记 样本 的 
标 是 尽量 减少 噪声 的 影响 ， 
正确 标记 。 然 而 ， 正 如 已 经 讨论 的 那样 ， 在 本 章 中 ， 
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引用 异 





常 ， 定 义 每 一 次 数据 集 的 内 容 ( 仅 新 值 ， 或 新 值 和 异常 值 》 和 我 们 分 析 的 目标 。 在 6.2.2 节 
中 ， 我 们 将 简要 讨论 数据 集 的 预期 结构 。 


6.2.2 ”数据 集结 构 


在 标准 监督 〈 通 常 也 是 无 监督 ) 任务 中 ， 数 据 集 是 有 望 达到 




















每 个 类 的 样本 数 应 该 是 几乎 相同 的 。 相 反 ， 在 本 章 将 要 讨论 的 各 





平衡 的 数据 集 和 (包含 Y 个 样本 )。 





。 如 果 存 在 异常 值 检 测 〈 即 数据 集 存 在 一 部 分 脏 数据 ， 








来 过 滤 掉 所 有 异常 值 )， 则 Noutliers <N。 


。 如 果 有 新 值 检测 ， 则 Nos = 0; 或 更 实际 地 ，P(Noywios > 0) 一 0〈 即 我 们 通常 可 
本 并 将 注意 力 集中 在 新 样本 上 )。 





以 信任 现 有 



































因此 ， 我 们 需要 找 出 一 种 方法 


| 平衡 的 。 换 句 话说 ， 属 于 
E 务 中 ， 我 们 假设 有 非常 不 











这 些 标准 的 原因 非常 明显 : 让 我 们 考虑 一 下 前 面 讨 论 过 的 例子 。 如 果 在 1000000 个 处 
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个 合理 的 值 。 如 果 这 个 数字 大 得 多 ， 则 意味 着 
超出 了 数据 科学 家 的 职责 范围 。 因 此 ， 在 这 种 情况 下 ， 我 们 期 望 一 个 包含 大 量 正 确 样 本 
。 在 许多 情况 下 ， 经 验 法 可 以 反映 潜在 数据 生成 过 程 
因此 ， 例 如 有 0.2% 的 异常 ， 那 么 该 以 1000=2 的 比例 来 找 出 实际 的 概率 密度 函数 。 事 
值 可 区 分 性 的 因素 更 为 重要 。 另 一 方面 ， 如 果 我 们 被 











极 少数 异常 《甚至 为 零 ) 的 数据 集 














上 ， 在 这 种 情况 下 ， 找 出 决定 异常 























理 步 又 之 后 观察 到 的 异常 率 等 于 0.2%， 则 存在 2000 个 异常 ， 这 对 于 一 个 工作 过 程 来 说 是 





6.3 直方 图 145 






























































系统 中 应 该 存在 更 严重 的 问题 ， 当 然 这 已 
































求 仅 执行 新 值 检测 〈 例 如 区 分 有 效 条 

































































1 恶意 网 络 请 求 )， 则 必须 验证 数据 集 ， 以 便 不 包含 异 
但 同时 要 反映 真实 的 数据 处 理 过 程 ( 该 过 程 负责 所 有 可 能 的 有 效 样本 )。 


























事实 上 ， 如 果 正 确 样本 的 组 成 是 详尽 无 遗 的 ， 那 么 任何 与 高 概率 区 域 的 大 偏差 都 足以 

















发 警报 。 相 反 ， 真 实数 据 生成 过 程 



























































的 有 限 区 域 可 能 会 导致 误 报 结果 《〈 即 未 包含 在 训练 集 
被 错误 地 识别 为 异常 值 的 有 效 样本 )。 在 最 坏 的 情况 下 ， 如 果 特 征 被 改变 〈 也 就 是 说 ， 














常 值 被 错误 地 识别 为 有 效 样本 )， 则 噪声 很 大 的 子 集 也 可 能 确定 假 了 性。 然而， 在 大 多 数 














际 案例 中 ， 最 重要 的 因素 是 样本 数量 和 收集 样本 的 环境 。 不 言 而 喻 ， 任 何 模型 都 必须 使 
































进 
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6 


本 闷 E 罗 的 数据 集 (为 简单 起 见 ， 我 们 只 考虑 单 变量 分 布 ， 但 i 


使 得 nj(5) 对 应 于 包含 在 条 柱 bj 中 的 档 
通过 检测 包含 x 的 条 柱 并 使 用 以 下 公式 ， 可 以 轻松 获得 概率 的 近似 值 : 

































































与 将 要 测试 的 类 型 相同 的 元 素 进行 训练 。 例 如 如 果 使 用 低 精 度 仪器 在 化 学 工厂 内 进行 测 
， 则 使 用 高 精度 采集 的 测试 可 能 无 法 代表 总 体 〈 当 然 ， 它 们 比 数据 集 更 可 靠 )。 因 此 ,在 












































行 分 析 之 前 ， 我 强烈 建议 你 仔细 检查 数据 的 性 质 ， 并 询问 是 否 所 有 测试 样本 都 来 自 同一 

















据 生 成 过 程 。 








我 们 现在 可 以 引入 直方 图 的 概念 ， 估 计 这 是 包含 观测 值 的 数据 集 分 布 的 最 简单 方法 。 





.3 直方 图 
























































找 出 概率 密度 函数 近似 值 的 最 简单 方法 是 基于 频率 计数 。 如 果 我 们 有 一 个 包含 m 个 样 


























等 效 )， 我 们 可 以 如 下 定义 m 和 MM: 


























m=min(X) HM =max(X) 


我 们 可 以 将 间隔 (m, M) 分 成 固定 数量 的 条 柱 ( 其 宽度 可 以 相同 或 不 同 )， 表 示 为 w(b)， 
本 数 。 此 时 , 给 定 一 个 测试 样本 x 我 们 很 容易 理解 ， 


























这 个 过 程 对 于 多 维 样本 完 
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在 分 析 这 种 方法 的 优 缺 点 之 前 ， 让 我 们 考虑 一 个 简单 的 例子 ， 该 例子 基于 细 分 为 10 
种 不 同类 别人 和 群 的 年 龄 分 布 : 











import numpy as np 
nb_samples = [1000, 800, 500, 380, 280, 150, 120, 100, 50, 30] 
ages = [] 


for n in nb samples: 
i = np.random.uniform(10, 80, size=2) 
a = np.random.uniform(i[0], i[1], size=n) .astype (np.int32) 
ages.append (a) 

ages = np.concatenate (ages) 


只 能 使 用 随机 种 子 1000 ( 即 设置 np.random.seed(1000)) 
来 复制 数据 集 。 














数组 ages 包含 所 有 样本 ， 我 们 想 创 建 一 个 直方 图 来 初步 了 解 分 布 。 我 们 需要 使 用 NumPy 
的 函数 np.histrogram0， 该 函数 提供 了 所 有 必要 的 工具 。 我 们 要 解决 的 第 一 个 问题 是 找 出 最 
佳 的 条 柱 数 。 这 对 于 标准 分 布 来 说 很 容易 ， 但 是 如 果 对 概率 密度 没有 先 验 知识 ， 它 可 能 会 
变 得 非常 困难 。 原 因 很 简单 : 由 于 我 们 需要 逐步 逼近 连续 函数 ， 因 此 条 柱 的 宽度 决定 了 最 
终 精 度 。 如 果 密 度 是 平坦 的 〈 例 如 均匀 分 布 )， 则 几 个 条 柱 就 足以 获得 良好 的 结果 。 
相反 ， 在 存在 峰值 时 ， 当 函数 的 一 阶 导 数 较 大 时 ， 在 区 域 中 放置 更 多 《〈 较 短 ) 的 条 柱 
是 有 用 的 ， 而 当 导 数 接近 零 〈 表 示 平 坦 区 域 ) 时 ， 则 将 较 少 的 条 柱 放置 到 区 域 中 是 有 用 的 。 
正如 我 们 将 要 讨论 的 那样 ， 使 用 更 复杂 的 技术 ， 可 以 使 这 个 过 程 变 得 更 容易 ， 而 直方 图 通 
常 基于 最 佳 条 柱 数量 的 更 粗略 计算 。 特 别 地 ，NumPy 允许 设置 参数 bins='auto'， 这 会 强制 
算法 根据 明确 定义 的 统计 方法 (基于 Freedman Diaconis 估计 量 和 Sturges 公式 ) 自动 选择 
数值 : 








































































































































































































































































































pns -max 1 +logym | 

在 上 面 的 公式 中 ， 四 分 位 距 〈Interquartile Range，IQR) 对 应 于 第 75 个 百 分 位 数 和 
第 25 个 百 分 位 数 之 间 的 差异 。 由 于 我 们 对 分 布 没 有 清晰 的 概念 ， 因 此 更 愿意 依赖 自动 选择 
0 下 面 的 代码 所 示 : 
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> 注 

















import numpy as np 


6.3 直方 图 147 





h, e = np.histogram(ages, bins='auto') 


print('Histograms counts: {}'.format (hn)) 
print('Bin edges: {}'.format(e)) 


代码 输出 如 下 : 


Histograms counts: [177 86 122 165 236 266 262 173 269 258 241 116 458 257 
3 让 二 十 二 .5 汉 ] 

Bin edges: [16. 18.73684211 21.47368421 24.21052632 26.94736842 
29.68421053 32.42105263 35.15789474 37.89473684 40.63157895 43.36842105 
46.10526316 48.84210526 51.57894737 54.31578947 57.05263158 59.78947368 
62.52631579 65,.26315789 68. ] 


因此 ， 该 算法 定义 了 19 个 条 柱 ， 并 输出 频率 计数 和 边缘 ( 即 最 小 值 为 16， 最 大 值 为 
68)。 现 在 我 们 可 以 显示 直方 图 ， 如 图 6-1 所 示 。 


mm Age count 


Number of entries 





0 
1600 1874 2147 2421 2695 2968 了 242 3516 了 89 4 和 63 4337 411 484 5158 5432 5705 B79 6253 6526 6800 


图 6-1 测试 分 布 的 直方 图 


该 图 证 实 了 该 分 布 是 非常 不 规则 的 ， 并 且 一 些 平坦 区 域 具有 峰值 。 如 前 所 述 ， 当 查 
询 是 基于 属于 特定 区 域 的 样本 的 概率 时 ， 直 方 图 是 有 用 的 。 例 如 我 们 可 能 感 兴趣 确定 一 
个 人 年 龄 在 48.84 到 51.58 之 间 的 概率 (相当 于 从 0 开始 的 第 13 个 条 柱 )。 由 于 所 有 的 条 
柱 具 有 相同 的 宽度 ， 因 此 我 们 可 以 简单 地 用 n,(512) (bh[12]) 和 m (ages.shape[0]) 之 间 的 比率 
来 近似 该 值 : 











d= el[l] - e[0] 
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p50 = float (h[12]) / float(ages.shape[0]) 





print ('P(48.84 < x < 51.58) = {:.2f} ({:.2f}%)'.format (p50, p50 * 100.0)) 
俞 出 如 下 : 
P(48.84 <x < 51.58) = 0.13 (13.43%) 





因此 ， 概 率 的 近似 值 约 为 13.5%， 这 也 通过 直方 图 的 结构 得 到 了 证 实 。 但 是 ， 读 者 应 
该 清楚 地 了 解 到 这 种 方法 有 明显 的 局 限 性 。 首 先 也 是 最 明显 的 是 关于 条 柱 的 数量 和 宽度 。 
了 实 上 ， 小 的 数量 将 产生 无 法 考虑 快速 振荡 的 粗略 结果 ， 而 非常 大 的 数量 会 迫使 形成 有 和 孔 
的 直方 图 ， 因 为 大 多 数 条 柱 都 没有 样本 。 因 此 ， 考 虑 到 在 现实 生活 中 过 到 的 所 有 可 能 的 动 
态 ， 我 们 需要 一 种 更 可 靠 的 方法 。 这 是 我 们 将 在 6.4 节 讨 论 的 内 容 。 


6.4” 核 密度 估计 






























































记 光 放 





Nihal 




































































用 简单 的 方法 也 可 以 有 效 地 解决 直方 图 不 连续 性 问题 ,。 给 定 样本 x;EX, 假设 我 们 正在 
处 理 以 x; 为 中 心 的 多 元 分 布 ， 则 可 以 考虑 超 体积 (通常 是 超 立 方 体 或 超 球 面 )。 这 种 区 域 的 
扩展 是 通过 带宽 的 常数 及 来 定义 的 (选择 该 名 称 是 为 了 支持 值 为 正 的 有 限 区 域 的 含义 )。 但 
是 ， 我 们 现在 不 只 是 简单 地 计算 属于 超 体积 的 样本 数量 ， 而 是 使 用 具有 一 些 重 要 特征 的 平 
滑 核 函数 KGi; 六 来 近似 该 值 : 

K(x;h)is positive with K(x;h)= K(—x;h) 


此 外 ， 出 于 统计 和 实际 的 原因 ， 平 滑 核 函数 还 必须 强制 执行 以 下 积分 约束 〈 为 简单 起 
见 ， 它 们 仅 针对 单 变量 情况 显示 ， 但 扩展 非常 简单 ): 











































































































































































































f KGceDde=L | PKCsDdr=1L | x KGshdr < if re[0ca) 





在 讨论 核 密度 估计 的 技术 之 前 ， 先 展示 一 些 K(*) 的 常见 选择 是 有 帮助 的 。 
6.4.1 高 斯 内 核 


高 斯 内 核 ‘Gaussian Kernel) 是 使 用 最 多 的 内 核 之 一 ， 其 结构 如 下 : 
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鉴于 其 规律 性 ， 高 斯 内 核 是 许多 密度 估计 任务 的 常见 选择 。1 
混合 不 同 的 内 核 ， 因 此 选择 时 必须 考虑 所 有 属性 。 从 统计 数据 中 ， 我 们 知 
被 视 为 峰 度 的 平均 参考 (其 与 峰值 和 尾部 的 重量 成 比例 )。 为 了 最 大 限度 





形 表 示 如 图 6-2 所 示 。 
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性 ， 我 们 需要 减少 带宽 。 这 意味 着 即使 最 小 的 
的 估计 。 男 一 方面 ， 当 有 h 很 大 ( 即 高 斯 的 方差 〉 时 ， 近 似 值 变 得 非常 平 ; 
获 所 有 峰值 的 能 力 。 因 此 ， 在 选择 最 合适 带宽 日 

















化 过 程 的 内 核 。 





6.4.2 ”Epanechnikov 内 核 


这 种 内 核 建议 用 来 最 小 化 均 方 误差 ， 它 共有 非常 规则 的 性 
为 倒置 抛物 线 )。 其 公式 如 下 : 








昌 于 该 方法 不 允许 
道 高 斯 分 布 可 以 
也 提高 内 核 的 选择 


























恨 荡 也 会 改变 密度 ，3 





省 且 结果 是 非常 不 规则 


























同时， 我 们 还 可 以 考虑 























2 
Ka-=o| 1- 和 J/or Ixk1 











并 且 可 
也 可 以 


能 失去 捕 
自然 地 简 











E 质 (实际 上 ， 它 可 以 被 想象 


引入 常量 e 来 标准 化 内 核 并 满足 所 有 要 求 ( 以 类 似 的 方式 ， 可 以 在 范围 (-h, h)〉 中 扩 


























展 该 内 核 ， 以 便 与 其 他 函数 更 加 一 致 )。 其 图 形 表示 如 区 


























当 h 一 0 时， 内 核 会 











成 尖峰 。 但 是 ， 鉴 于 其 数学 结构 ， 它 始终 非常 
大 多 数 情况 下 ， 没 有 必要 将 其 用 高 斯 内 核 蔡 代 《即使 后 者 具有 稍 大 的 均 方 误差 )。 此 外 ， 由 








阮 则 。 








于 函数 在 x= 土 h 时 (对 于 |x|> h，K(x; hh) = 0) 是 不 连续 的 ， 这 可 
降 ， 特 别 是 在 边界 处 ， 而 高 斯 函数 的 下 降 则 非常 缓慢 。 





致密 度 估计 的 快速 下 





此 , 在 
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K(x 














图 6-3 ”Epanechnikov 内 核 的 图 形 表示 














6.4.3 ”指数 内 核 


指数 内 核 (Exponential Kernel) 是 一 个 具有 人 尖峰 的 内 核 ， 其 通用 表达 式 如 下 : 














加 


K(x;h)= Ee 
与 高 斯 内 核 相反 ,该 内 核 具 有 非常 重 的 尾部 和 人 尖锐 的 峰值 。 其 图 形 表示 如 图 6-4 所 示 。 


/ 



































K(x h) 








图 6-4 ”指数 内 核 的 图 形 表示 

可 以 看 出 ， 这 样 的 函数 适用 于 分 布 非常 不 规则 的 模型 ， 其 密度 高 度 集 中 在 某 些 特定 点 周 
围 。 而 当 数 据 生 成 过 程 非 常规 则 且 表 面 光滑 时 ， 误 差 会 变 得 非常 高 。 可 用 于 评估 内 核 〈 和 带 
宽 ) 性 能 的 一 个 好 的 理论 度量 是 平均 积分 平方 误差 (Mean Integrated Square Error, MISE)， 
其 定义 如 下 : 



























































MISE(K)=E| | (px) -pO dr | 














在 前 面 的 公式 中 ，px(x) 是 估算 密度 ， 而 p(X) 是 实际 密度 。 
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不 幸 的 是 ，p(CO) 是 未 知 的 〈 和 否则， 我 们 不 需要 任何 估计 )。 因 此 ， 这 种 方法 只 能 用 于 理 
论 评估 (例如 Epanechnikov 内 核 的 最 优 性 )。 但 是 ， 很 容易 理解 ， 只 要 内 核 无 法 靠近 实际 














































































































表面 ，MISE 就 会 更 大 。 由 于 指数 会 非常 突然 地 跃升 到 峰值 ， 因 此 它 仅 适用 于 特定 情况 。 在 





























其 他 情况 下 ， 其 行为 将 导致 更 大 的 MISE， 因 此 最 好 使 用 其 他 内 核 。 
6.4.4 均匀 /Tophat 内 核 
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如 下 : 


Ksh) = forlxl<h 
































6.4.5 ”估计 密度 











一 旦 选择 了 内 核 函 数 ， 我 们 就 可 以 使 用 -近邻 方法 构建 概率 密度 函数 的 完全 近似 。 习 





显然 ， 这 是 一 个 在 带宽 限定 的 范围 内 保持 不 变 的 步 台 ， 只 有 在 估计 不 需要 平滑 时 才 有 用 。 

















这 是 最 简单 且 不 太平 滑 的 内 核 函数 ， 其 用 法 类 似 于 构建 直方 图 的 标准 过 程 。 其 公式 











oy 


实 上 ， 给 定 一 个 数据 集 忆 (为 简单 起 见 ， 蕊 人 多 "， 因 此 值 是 实数 )， 很 容易 创建 ， 例 如 一 个 
ball-tree( 如 在 第 2 章 中 所 讨论 的 那样 ) 来 高 效 地 将 数据 进行 区 分 。 当 数据 结构 准备 就 绪 时 ， 
我 们 可 以 在 由 带宽 定义 的 半径 内 获得 查询 点 发 的 所 有 邻 域 。 假 设 这样 的 集合 是 蕊 = fr …, 7 































































































并 且 点 数 是 V。 概 率 密度 的 估计 如 下 ; 


1 光学 
,)= KI 一 一 一 ;7 
PkCxz)) NA | 万 | 




















不 难 证 明 ， 如 果 带 宽 选 择 得 当 ( 作 为 邻 域 中 包含 的 样本 数量 的 函数 ),， px 的 概率 将 收敛 
到 实际 PCD)。 换 句 话说， 如 果 粒 度 足 够 多 ， 则 近似 密度 和 真实 密度 之 间 的 绝对 误差 将 收敛 





























到 零 。px(%)) 的 构建 过 程 如 图 6-5 所 示 。 



































此 时 ， 你 很 自然 地 会 问 为 什么 不 为 每 个 查询 使 用 整个 数据 集 ， 而 且 不 是 使 用 k-NN 方 


























法 ? 答案 非常 简 


























为 《 即 对 于 多 变量 分 布 ， 以 六 为 中 心 的 球 ) 进行 插值 
我 们 可 以 将 计算 限制 为 较 小 的 关子 集 ， 避 免 包含 接近 零 的 影响 。 









































EE， 它 基于 以 下 假设 ， 在 处 计算 的 密度 函数 的 值 可 以 容易 地 使 用 局 部 行 
首 且 远 点 对 估算 没有 影响 。 因 此 ， 








在 讨论 如 何 确定 最 佳 带宽 之 前 ， 让 我 们 展示 先前 定义 数据 集 的 密度 估计 使 用 scikit-learn)。 






























































由 于 我 们 没有 任何 特定 的 先 验 知识 ,因此 将 采用 上 共有 不 同 带 宽 (0.1、0.5 和 1.5) 的 高 斯 内 核 。 


所 有 其 他 参数 保持 默认 值 ; 但 是 , KernelDensity 类 允许 设置 度量 (默认 为 metric='euclidean')、 
数据 结构 (默认 为 algorithm='auto'"， 根 据 维度 在 ball-tree 和 kd-tree 之 间 执 行 自动 选择 )， 以 
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及 绝对 容 差 和 相对 容 差 (分 别 为 0 和 10“)。 在 许多 情况 下 ,我 们 没有 必要 更 改 默认 值 ; 但 
是 ， 对 具有 特定 功能 的 超大 型 数据 集 更 改 默认 值 可 能 会 有 所 帮助 ， 例 如 更 改 参数 leaf size 
以 提高 性 能 (如 第 2 章 中 所 述 )。 此 外 ， 黑 认 度量 不 适用 于 所 有 任务 “例如 标准 文档 显示 基 
于 Haversine 距离 的 示例 ， 该 距离 可 用 于 处 理 纬度 和 经 度 )。 其 他 情况 时 ， 我 们 最 好 使 用 超 
立方 体 〈 曼 哈 顿 距离 就 是 如 此 )， 而 不 是 使 用 球体 。 


















































































































































图 6-5 的 概率 密度 的 估计 (在 属于 x 邻 域 的 每 个 点 中 评估 内 核 函 数 ) 
让 我 们 从 实例 化 类 和 拟 合 模 型 开始 : 











from sklearn.neighbors import KernelDensity 


kd 01 = KernelDensity (kernel='gaussian', bandwidtn=0.1) 
kd 05 = KernelDensity (kernel='gaussian', bandwidtn=0.5) 
kd 15 = KernelDensity (kernel='gaussian', bandwidtn=1.5) 
kd 01.fit(ages.reshape(-1, 1)) 
kd 05.fit(ages.reshape(-1, 1)) 

-1, 1)) 








kd 15.fit(ages.reshapel 








此 时 ， 我 们 可 以 调用 方法 score_samples() 来 获得 一 组 数据 点 的 对 数 密度 估计 在 我 们 
的 例子 中 ， 考 虑 的 是 以 0.05 为 增 量 的 范围 (10,70))。 由 于 值 是 log(p)， 因 此 我 们 有 必要 计 
算 e* 中 以 获得 实际 概率 。 
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不 同 密度 的 高 斯 密度 估计 如 图 6-6 所 示 。 
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图 6-6 不 同 带 宽 的 高 斯 密度 估计 (0.1 (上 )、0.5 (中 ) 和 1.5 (下 )) 




















我 们 可 能 会 注意 到 ， 当 带宽 非常 小 (0.1) 时 ， 由 于 缺少 特定 子 范围 的 样本 ， 密 度 具 有 
强烈 的 振荡 现象 。 当 有 h= 0.5 时 ， 轮 廓 《因为 数据 集 为 单 变量 ) 变 得 更 加 稳定 ， 但 是 仍然 存 
在 由 邻 域内 部 方差 引起 的 一 些 残余 的 快速 变化 。 当 疡 变 大 时 , 这 种 行为 几乎 完全 被 消除 (在 
我 们 的 例子 中 及 =1.5)。 一 个 显而易见 的 问题 是 : 我 们 如 何 确定 最 合适 的 带宽 ? 当然 ， 最 自 
然 的 选择 是 最 小 化 MISE 的 h 值 ， 但 是 ， 正 如 所 讨论 的 那样 ， 这 种 方法 只 能 在 已 知 真实 概 
率 密度 时 使 用 。 事 实 上 ， 有 一 些 经 验 标准 已 被 证 实 非常 可 靠 。 给 定 完整 的 数据 集 X Ee”， 

























































































154 


第 


be 





位 间 
大 的 


方法 
用 
核 ， 


第 6 章 异常 检测 


个 数据 集 基 于 以 下 公式 : 














h=1.06. std(X).m™ 
在 此 实例 中 ， 我 们 获得 以 下 内 容 : 
import numpy as np 


N= float(ages.shape[0]) 
h= 1.06 * np.stdl(ages) * np.power (N, -0.2) 


print('h = {:.3f}'.format (nh)) 





价 出 如 下 : 


h = 2.415 




















因此 ， 我 们 建议 增加 带宽 ， 甚 至 超过 我 们 上 一 个 示例 中 的 带宽 。 第 二 种 方法 基于 四 分 


















































距 COR = 03 - 21 或 相当 于 第 75 个 百 分 位 数 至 第 25 个 百 分 位 数 )， 并 且 对 于 非常 强 
内 部 变化 更 为 稳健 : 
h=09emin( sao0: 人 or 
1.34 
计算 如 下 : 
import numpy as np 
IQR = np.percentile(ages, 75) - np.percentile (ages, 25) 





h=0.9 * np.min([np.std(ages), IQR / 1.34]) * np.power (N, -0.2) 


Briit (Mh :Ss {Sf} format(hn)) 





价 出 如下: 


h = 2.051 



































该 值 比 前 一 个 值 小 ， 表 明 px(x) 对 于 较 小 的 超 体积 可 以 更 准确 。 根 据 经 验 ， 即 使 第 二 种 
























































通常 在 不 同 的 情况 中 能 提供 最 佳 结 果 ， 我 也 建议 选择 带宽 最 小 的 方法 。 现 在 让 我 们 使 
= 2.0，Gaussian、Epanechnikov 和 Exponential 内 核 重 新 执行 估算 (我 们 排除 了 均匀 内 





因为 最 终结 果 等 效 于 直方 图 ): 


6.4 ” 核 密度 估计 155 


from sklearn.neighbors import KernelDensity 


kd gaussian = KernelDensity(kernel='gaussian', bandwidth=2.0) 
kd epanechnikov = KernelDensity(kernel='epanechnikov', bandwidth=2.0) 
kd exponential = KernelDensity(kernel='exponential', bandwidtn=2.0) 





kd gaussian.fit(ages.reshape(-1, 1)) 
kd epanechnikov.fit(ages.reshape(-1, 1)) 
kd exponential.fit(ages.reshape(-1, 1)) 





带宽 等 于 2.0 的 密度 估计 如 图 6-7 所 示 。 
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6-7 ”带宽 等 于 2.0 的 密度 估计 (Gaussian Kemel (上 )、EpanechnikovKemel (中 ) 和 Exponential Kernel (下 )) 
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正如 预期 的 那样 ，Epanechnikov 和 指数 内 核 都 比 高 斯 内 核 更 具 振 荡 性 (因为 当 有 h 很 小 


时 它们 倾向 于 峰值 );， 然 而， 显而易见 的 是 ， 中 心 图 肯定 是 最 准确 的 〈 就 MISE 而 言 )。 先 


名 





常 检测 


























前 我 们 已 经 

















似乎 非常 平滑 ， 


法 















































估算 的 极 值 ， 我 


出 其 独特 的 行为 ， 非常 尖锐 的 极端 。 
是 , 我 建议 读者 检查 具有 不 同 带宽 的 高 
有 确凿 的 理由 不 能 丢弃 ): 我 们 认为 数 和 
























































j 高 斯 内 核 和 瑚 = 0.5 实现 了 类 似 的 结果 , 但 是 在 那 种 情况 下 , 振荡 非常 不 规则 。 


如 上 所 述 ， 当 值 达 到 带宽 边界 时 ，Epanechnikov 内 核 具 有 非常 强 的 不 连续 趋势 。 通 过 观察 
门 可 以 立即 理解 该 估 值 几乎 垂直 下 降 到 零 这 种 现象 。 而 = 2 的 高 斯 估计 




































































同时 它 无 法 
































获 50 到 60 岁 之 间 的 变化 。 对 于 指数 内 核 也 是 如 此 ， 它 表现 
在 下 面 的 例子 中 ， 我 们 将 使 用 Epanechnikov 内 核 。 但 
斯 分 布 的 结果 。 这 个 选择 有 一 个 确切 的 基本 原理 ( 没 







































































居 集 是 详尽 的 ， 并且 想 要 惩罚 所 有 克服 自然 极端 的 样 
































本 。 在 其 他 情况 下 ， 我 们 可 以 优选 非常 小 的 剩余 概率 。 但 是 ， 做 出 这 样 的 选择 时 我 们 必须 
考虑 每 个 特定 目标 。 
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现在 让 我 们 应 用 Epanechnikov 密度 估 
































计 来 执行 异常 检测 的 示例 ,根据 概率 密度 的 结构 ， 





我 们 决定 在 p(x) < 0.005 处 施加 异常 中 断 ， 如 图 6-8 所 示 。 


006 








红 点 表示 样本 被 归 为 异常 的 年 龄 限制 。 


20 30 























图 6-8 有 异常 中 























import numpy as np 


test data = np.array ([12, 15, 18, 


80; 85; 


90]) .reshape (-1, 1) 





test densities epanechnikov = 


Anomalies (p < 0.005) 三 二 三 
50 60 7 


Fs 
Age 
断 的 Epanechnikov 密度 估计 


让 我 们 计算 一 些 测试 点 的 概率 密度 : 








207 257 30, 40; 50, 557， ‘60), €5; 70, 757 
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np.exp (kd epanechnikov.score samples (test data)) 


起 


工 


test densities epanechnikov 





est densities gaussian 


or age, 





print('p(Age = {:d}) = 
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np.exp (kd gaussian.score samples (test data)) 








density in zip(np.squeeze (test data), 


























































































































) 
{:.7f} ({})'.format (age, density, "AnomalLy" if 
































density < 0.005 else 'Normal')) 

代码 的 输出 如 下 : 

p(Age = 12) = 0.0000000 (Anomaly) 

p(lAge = 15) = 0.0049487 (Anomaly) 

p(Age = 18) = 0.0131965 (Normal) 

p(Age = 20) = 0.0078079 (Normal) 

p(Age = 25) = 0.0202346 (Normal) 

p(Age = 30) = 0.0238636 (Normal) 

p(Age = 40) = 0.0262830 (Normal) 

pb(Age = 50) = 0.0396169 (Normal) 

p(Age = 55) = 0.0249084 (Normal) 

p(Age = 60) = 0.0000825 (Anomaly) 

p(Age = 65) = 0.0006598 (Anomaly) 

p(Age = 70) = 0.0000000 (Anomaly) 

p(Age = 75) = 0.0000000 (Anomaly) 

p(Age = 80) = 0.0000000 (Anomaly) 

p(Age = 85) = 0.0000000 (Anomaly) 

p(Age = 90) = 0.0000000 (Anomaly) 

正如 我 们 看 到 的 那样 ， 函 数 的 突然 下 降 造 成 了 一 种 垂直 分 离 。15 岁 的 人 几乎 处 于 边界 
(p(15) = 0.0049)， 而 上 限 的 行为 更 加 极端 。 中 断 约 为 $8 岁 ， 但 60 岁 的 样本 概率 比 57 岁 的 
样本 概率 低 10 倍 〈 初 始 直方 图 也 证 实 了 这 一 点 )。 由 于 这 只 是 一 个 教学 的 例子 ， 因 此 很 容 
易 检 测 异 常 ， 然 而 ， 如 果 没 有 标准 化 算法 ， 即 使 稍微 复杂 的 分 布 ， 也 会 产生 一 些 问题 。 特 
别 是 在 这 种 简单 的 单 变量 分 布 的 特定 情况 下 ， 异 常 通常 位 于 尾部 。 

因此 ， 我 们 假设 给 定 总 体 密度 估计 px(7): 

Pxr(x,) pr(x,)Vx, Ee Anomalies CX and x, EX 

当 考 虑 包含 所 有 样本 (正常 样本 和 异常 样本 ) 的 数据 集 时 ， 这 种 行为 通常 是 不 正确 的 ， 
并 且 数 据 科学 家 在 决定 阔 值 时 必须 小 心 。 即 使 它 很 明显 ， 也 最 好 通过 从 数据 集中 删除 所 有 
异常 来 学 习 正 态 分布 ， 以 便 将 异常 所 在 的 区 域 展 平 (px(x) 一 0)。 由 此 ， 先 前 的 标准 仍然 有 















































效 ， 


省 且 可 以 

















容易 地 比较 不 同 的 密度 以 进行 区 分 。 
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在 继续 下 一 个 例子 之 前 , 我 建议 通过 创建 人 工 漏洞 和 设置 不 同 的 闷 值 来 修改 初始 分 布 。 
此 外 ,我 建议 读者 根据 年 龄 和 身高 生成 双 变量 分 布 ( 例 如 基于 某 些 高 斯 的 总 和 )， 并 创建 一 
个 简单 模型 ， 使 该 模型 能 够 检测 参数 标识 的 不 太 可 能 出 现 的 所 有 人 。 


基于 KDD Cup 99 数据 集 的 异常 检测 


此 示例 基于 KDD Cup 99 数据 集 ， 该 数据 集 收集 了 一 系列 正常 和 恶意 的 互联 网 活动 。 特 
别 地 ， 我 们 将 重点 关注 HTTP 请 求 的 子 集 ， 它 具有 4 个 属性 : 持续 时 间 、 
和 行为 《这 更 像 是 一 个 分 类 元 素 ， 但 它 对 我 们 立即 访问 某 些 特 定 攻击 内 容 很 有 帮助 )。 
原始 值 是 0 附近 非常 小 的 数字 ， 所 有 版 本 (包括 scikitlearn one) 都 使 用 公式 log(x + 0. 
变量 进行 归 一 化 〈 因 此， 在 使 用 新 样本 模拟 异常 检测 时 必须 应 用 该 值 )。 当 然 ， 道 变换 如 下 : 


=log(x+0.1)=>x=e’ -0.1 
让 我 们 首先 使 用 scikit-learn 内 置 函 数 fetch kddcup99() 加 载 和 准备 数据 集 ， 然 后 选择 


percent10=True 将 数据 限制 为 原始 集合 的 10% (非常 大 )。 当 然 ， 我 建议 读者 也 使 用 整个 数 
据 集 和 完整 参数 列表 (包含 34 个 数值 ) 进行 测试 。 


在 这 种 情况 下 ， 我 们 还 选择 subset='http'， 它 已 经 准备 好 包含 大 量 正常 连接 和 一 些 特定 
攻击 : 



















































































































































































































































































from sklearn.datasets import fetch kddcup99 


kddcup99 = fetch kddcup99 (subset='http', percent10=True, random state=1000) 


xX 
Y 


kddcup99['data'] .astype (np.float64) 
kddcup99['target'] 


print('Statuses: {}'.format (np.unique (Y) ) ) 
print('Normal samples: {}'.format (X[Y == b'normal.'].shape[0])) 
print('Anomalies: {}'.format (X[Y != pb'normal.'] .shape[0])) 





出 如 下 : 


Ee 
二 
上 


Statuses: [b'back.' b'ipsweep.' b'normal.' b'phf.' b'satan.'] Normal 
samples: 56516 Anomalies: 2209 











因此 ， 这 里 有 4 种 类 型 的 攻击 (其 细节 在 此 情况 中 并 不 重要 )， 其 中 包含 2209 个 恶意 
样本 和 56516 个 正常 连接 。 为 了 进行 密度 估计 ， 我 们 将 考虑 把 这 3 个 分 量 作为 独立 的 随机 
变量 (虽然 这 不 是 完全 正确 ， 但 它 可 以 是 一 个 合理 的 起 点 ) 进行 初步 考虑 ， 但 最 终 估算 是 




















































































































dl 














基于 完整 的 联合 分 布 。 


import numpy as np 








0) 


means = np.mean (X, axis=0) 

stds = np.std(X, axis=0) 

IQRs = np.percentile(X, 75, axis= 
代码 的 输出 如 下 : 

Means: 


Standard devations: 
IORs: [0. 








持续 时 间 (第 一 个 分 量 ) 的 IQR 为 空 


图 





60000 


50000 


40000 


30000 


Number of entries 


20000 


10000 


-2303 -1739 -1176 -0613 -0.050 


6-9 


来 确认 这 一 点 ， 如 图 6-9 所 示 。 


0.514 


A 


旬 





1077 1640 2203 





Duration 


当 我 们 想 要 确定 最 佳 带 宽 时 ， 


- np.percentile (Xx, 


因此 ， 大 多 数值 是 相等 的 。 让 我 们 绘 第 


2767 


3330 





一 个 分 


量 的 直方 医 





图 | 





























正如 所 料 ， 这 个 分 量 不 是 很 重要 ， 因 为 只 














示例 中 , 我 们 将 跳 过 它 并 仅 使 用 源 字 节 和 目标 字 


import numpy as np 


N 


float (X.shape[0]) 


6.5 ”应 用 异常 检测 
则 要 执行 基本 的 统计 分 析 : 


25, axis=0) 


[=22638L954 S73573L107 7:53879208] 
[0.49261436 1.06024947 1.32979463] 
0.34871118 1.99673381] 








3893 4456 5020 5583 6146 6709 7.272 


(持续 时 间 ) 


ae 因此 ， 在 此 
。 现 在 让 我 们 按照 前 面 的 说 明 计算 带宽 : 








i 
.一 
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直方 











160 第 6 章 异常 检测 
h0 = 0.9 * np.min([stds[0], IQRs[0] / 1.34]) * np.power (N, -0.2) 
hl = 0.9 * np.min([stds[1], IQRs[1] / 1.34]) * np.power (N, -0.2) 
h2 = 0.9 * np.min([stds[2], IQRs[2] / 1.34]) * np.power (N, -0.2) 
BELnt ("hi0 Ss {sxdE}y Hl = isfy ha tf .tormat (hd lly hi2)) 
渝 出 如 下 : 
h0 = 0.000, hl = 0.026，h2 = 0.133 
排除 第 一 个 值 ， 我 们 需要 在 hl 和 h2 之 间 进 行 选择 。 由 于 值 的 大 小 并 不 大 并 且 我 们 想 


了 较 高 的 选择 





性 ， 因 








要 














此 我 们 将 设置 h = 0.025 六 









































F 使 用 高 斯 内 核 ， 该 内 核 提供 了 良好 的 平滑 














性 。 包含 第 一 个 分 量 的 拆 分 输出 的 密度 估计 〔 使 用 seaborn 可 视 化 库 获 得 ， 其 中 包含 一 个 内 





部 KDE 模块 )， 妇 





[图 6-10 


Duration 











所 示 。 


Source bytes Destination bytes 
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6-1 
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0 





E 常 连接 (上) 和 恶意 


DAN 





1 











图 6-10 的 上 面 3 个 图 


攻击 “下 ) 的 密度 估计 








如 预期 





显示 正常 连接 的 密度 ， 而 下 面 3 个 图 显示 恶意 攻击 的 密度 。 正 





的 那样 ， 第 一 个 分 量 〈 持 续 时间 ) 在 两 种 情况 下 几乎 相同 ， 可 以 丢弃 。 而 源 字 节 











和 目标 字 节 都 表现 出 非常 不 同 的 行为 。 在 不 考虑 对 数 变换 的 情况 下 ,正常 连接 平均 发 送 5 











字 节 ， 
10 之 间 ， 密 度 从 10 了 











日 方差 非常 小 ， 将 潜在 范围 
TF 始 非 常 低 。 相 反 ， 恶 意 攻 
低 的 一 个 对 应 于 -2， 较 高 的 一 个 分 别 对 应 大 约 11 和 9( 与 正常 


























扩展 到 间隔 (4,6)。 响 应 











有 更 大 的 方差 ， 值 介 于 4 和 
的 源 字 节 和 目标 字 节 都 有 两 个 峰值 : 较 
区 域 的 最 小 重 释 )。 即 使 不 



























































考虑 完整 的 联合 概率 密度 ， 








也 不 难 理解 大 多 数 攻击 发 送 更 多 输入 数据 并 接收 更 长 响应 (而 
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连接 持续 时 间 不 会 受到 强烈 影响 )。 
我 们 现在 可 以 通过 仅 选 择 正常 样本 〔 即 对 应 于 Y== bnormal.') 来 训练 估计 





直 



































from sklearn.neighbors import KernelDensity 


X= X[:, 1:] 


kd = KernelDensity(kernel='gaussian', bandwidth=0.025) 
kd.fit(X[Y == pb'normal.']) 























让 我 们 计算 正常 样本 和 异常 样本 的 密度 : 











Yn = np.exp (kd.score samples (X[Y == pb'normal.'])) 
Ya = np.exp (kd.score samples(X[Y != pb'normal.'])) 


wal 
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print('Mean normal: {:.5f} - Std: {:.5f}'.format (np.mean (Yn), np.std(Yn))) 
print('Mean anomalies: {:.5f} - Std: {:.5f}'.format (np.mean (Ya),np.std (Ya))) 


输出 如 下 : 


Mean normal: 0.39588 - Std: 0.25755 
Mean anomalies: 0.00008 - Std: 0.00374 



































显然 ， 当 例如 px(x) < 0.05 (考虑 3 个 标准 差 ) 时 , 我们 可 以 预期 到 异常 ， 得 到 px(x) E 


(0, 0.01))， 而 Yn 的 中 位 数 约 为 0.35。 这 意味 着 至 少 一 半 样 本 的 px(x) > 0.35, 但 是 ,经 过 简 





单 的 计数 检查 后 ， 我 们 得 到 以 下 信息 : 


























print (np.sum(Yn < 0.05)) 
print (np.sum(Yn < 0.03)) 
print (np.sum(Yn < 0.02)) 
print (np.sum(Yn < 0.015)) 
输出 如 下 
3147 
778 
1037 
702 
由 于 有 56516 个 正常 样本 ， 我 们 决定 选择 两 个 闵 值 (还 要 考虑 异常 离 群 值 )。 


























。 正常 连接 : px(x) > 0.03。 


已 
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过 第 二 个 
过 第 二 -7 


此 外 ， 





print (np.sum(Ya < 0.015) ) 















































中 危 警 报 : 0.03( 涉 及 3.1% 的 正常 样 
高 危 警 报 : 0.015〔 在 这 种 性 


本 ， 可 被 识别 为 误 报 )。 
有 况 下 ， 只 有 1.2% 的 正常 样本 可 以 触发 警报 )。 





























个 警报 ， 我 们 捕获 以 下 情况 ; 





























































































































输出 如 下 : 

2208 

因此 , 只 有 一 个 异常 样本 的 px(x) > 0.015 (有 2209 个 向 量 ), 证 实 了 这 种 选择 是 合理 的 。 
前 面 的 结果 也 通过 密度 的 直方 图 得 到 证 实 ， 如 图 6-11 所 示 。 

Anomaly densities Normal densities 

. T1000 E | 

0000 0025 0050 "Denity 100 0125 0150 0175 00 02 04 Density 08 10 12 

图 6-11 异常 密度 ( 左 ) 和 正常 密度 〈 右 ) 的 直方 图 

我 们 并 不 需要 忧虑 正 态 分 布 的 右 侧 ， 那 是 因为 异常 高 度 集中 在 左 侧 。 在 这 个 区 域 ， 有 
大 多 数 异 常 现象 ， 因 此 也 是 最 关键 的 。 原 因 与 特定 域 严格 相关 (其 中 输入 和 输出 字 节 对 于 
不 同类 型 的 请 求 非常 相似 )， 并且 在 更 稳定 的 解决 方案 中 ， 有 必要 考虑 其 他 参数 〈 例 如 完整 


























的 KDD Cup 99 数据 集 )。 但 是 ， 出 于 教学 目的 ， 我 们 可 以 定义 一 个 简单 的 函数 (基于 先前 








定义 的 阀 值 )， 根 据 源 字 节 和 目标 字 


import numpy as np 


def is anomaly (kd, source, 


节 的 数量 《〈 非 对 数 的 ) 检查 连接 的 状态 : 





destination, medium thr=0.03, high thr=0.015) : 


xs = np.log(source + 0.1) 
xd = np.log(destination + 0.1) 
data = np.array ([[xs, xd]]) 
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density = np.exp(kd.score samples (data)) [0] 
if density >= medium thr: 

return density, 'Normal connection' 
elif density >= high thr: 

return density, 'Medium risk'"' 
else: 

return density, "High risk' 

















我 们 现在 可 以 用 3 个 不 同 的 例子 来 测试 函数 : 








print('p = {:.2f} - {}'.format(*is anomaly (kd, 200, 1100))) 
print('p = {:.2f} - {}'.format(*is anomaly (kd, 360, 200))) 
print('p = {:.2f} - {}'.format(*is anomaly (kd, 800, 1800))) 
输出 如 下 : 

p= 0.30 - Normal connection 

p= 0.02 - Medium risk 

p= 0.00000 - High risk 








总 的 来 说 ， 我 们 也 可 以 考虑 源 字 节 和 目标 字 节 密度 的 双 变 量 图 ， 如 图 6-12 所 示 。 


11 





Destination Bytes (logarithmic) 


Ld 
Dob 


8 9 
Source Bytes (logarithmic) 











pa 














6-12 ” 源 字 节 和 目标 字 节 密度 的 双 变量 图 
图 6-12 可 以 确认 ， 虽 然 攻击 通常 涉及 大 量 的 输入 字 节 ， 即 使 它们 占据 了 该 区 域 的 极端 


部 分 ， 但 其 响应 也 与 正常 访问 的 响应 非常 相似 。 作 为 练习 ， 我 建议 读者 使 用 整个 KDD Cup 
99 数据 集训 练 模型 ， 并 找 出 最 佳 闪 值 以 检测 高 危 和 中 危 风 险 的 攻击 。 
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6.6 单 类 支持 向 量 机 


单 





RC 在 Estimating the Support of a High-Dimensional Distribution 一 文 : 
类 方法 ， 从 真实 数据 生成 过 程 中 执 取样 本 或 异常 值 的 方法 。 





找到 一 个 无 


大 人 

















给 定 





监督 模型， 


给 定 样本 x;， 可 以 生成 二 进 
生 的 : -1 和 +1)。 

















aE 




















因此 ， 如 果 











假设 对 于 构成 j 
一 1 o 初 看 ， 


Ls 则 y; = 


出 yi( 通 

















常 ,SVM 结果 是 双 极 1 

x 是 离 群 值 ， 则 y; = +1; 反之， 如 果 
(更 准确 地 在 前 面 提 到 的 资料 中 ， 作 者 
| 练 集 的 大 多 数 内 部 因子 ， 结 果 为 
它 似乎 是 一 个 经 典 的 监督 问 



































dap 


包含 m 
0 











因为 它 不 需要 标记 数据 集 。 实际 上 ， 
个 样本 xiE 完 ”的 数据 集 X， 我 们 将 使 用 
来 对 模型 进行 训练 ， 目 标 是 找到 最 大 化 

















王 与 原点 之 
考虑 一 个 简 





训练 模型 以 找 出 与 原点 的 距 


参数 。 超 平 
标签 是 +1， 











WE 


数据 集 ( 通 





特 
话说 ， 我 们 


投影 函 
内 核 必 须 为 


别 地 ， 考 虑 到 问题 的 数学 性 质 ， 





间距 离 的 分 离 的 超 平面 。 首 先 ， 让 我 们 
单 的 线性 情况 ， 如 图 6-13 所 示 。 


离 最 大 的 超 平面 
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面 一 侧 的 所 有 样本 都 应 该 是 内 点 ， 输 出 
而 剩 下 的 所 有 样本 都 被 认为 是 异常 值 ， 
此 标准 看 似 有 效 ， 但 它 仅 适用 于 线 
函数 g(*)) 投影 到 特征 空 
GT): XD 


如 果 选择 内 核 
以 下 属性 的 函数 ， 

































































想 要 使 用 具有 





间 了 D 来 解决 此 问题 ， 











提出 ， 是 


类 支持 向 量 机 的 概念 由 Sch6lkopf B、Platt J C、Shawe-Taylor J C、Smola AJ 和 Williamson 





让 我 们 从 想 要 实 ] 





Outlier (label -1) 


种 新 闲 的 分 


岗 的 目标 开始 : 


分 离 超 平面 


Training set 


(label +1) 








6-13 ”线性 间 


类 支持 向 量 机 场景 : 





与 原始 点 


生 可 分 离 的 数据 集 。 





训练 集 




















分 开 























~ 
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具有 最 大 的 余 : 








标准 SVM 通过 将 
中 获取 此 属性 




















则 投影 在 计算 上 变 得 





K(x,x)) 等 G(T) 











正 半 定 )。 这 种 选择 的 原 








* GX)) 


数 g(*) 存 在 于 非常 容易 获得 的 条 件 〈( 称 为 Mercer 条 
因 与 解决 问题 所 涉及 的 过 程 密 








条 件 ) 下 《〈 即 在 实 子 空 
切 相 关 ( 更 详细 的 说 明 可 




















以 在 Machine Learning Algorithms, Second Edition 中 找到 )。 但 是 








担心 ， 因 为 














J++ 














我 们 不 会 讨论 太 多 的 数学 细节 。 要 记 作 





sa 








和 人- 


























投 








坦 半 


尿 Z/ 安 





导致 计算 复杂 | 


生 的 急剧 增加 《特别 是 对 于 大 型 





轻 量 级 。 换 名 


x 间 中 ， 


` 熟 悉 SVM 的 读者 不 必 
的 最 重要 的 事情 是 ， 不 支持 任何 内 核 的 
+ 数据 集 )。 
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K(。.) 最 常见 的 选择 之 一 是 径 向 基 函 数 〈 已 在 第 3 章 中 进行 了 分 析 ): 
KG 元)=e P| 

另 一 个 有 用 的 内 核 是 多 项 式 内 核 : 

K(X,7x))=(a+ bx «x,) 

在 这 种 情况 下 ， 指 数 c 定义 多 项 式 函 数 的 次 数 ， 该 次 数 与 特征 空间 的 维度 成 正比 。1 
是 ， 内 核 及 其 超 参 数 的 选择 取决 于 上 下 文 ， 并 且 没 有 始终 有 效 的 通用 规则 。 因 此 ， 对 于 每 
个 问题 ， 我 们 都 需要 进行 初步 分 析 并 且 通 常 还 需要 进行 网 格 搜索 以 做 出 最 合适 的 选择 。 一 
旦 选择 了 内 核 ， 问 题 可 以 通过 以 下 方式 表示 : 
minoss| DI + 6 | 
subject to Ww* re vieXHE0 


不 进行 全 面 的 讨论 (超出 了 本 书 的 范围 )， 我 们 只 将 注意 力 集中 在 一 些 重要 的 内 容 上 。 
首先 ， 决 策 函 数 如 下 : 



































































































































y;=sign(We* GX)—p) 
解决 方案 中 涉及 的 数学 过 程 允许 我 们 简化 以 下 表达 式 ， 但 是 最 好 保留 原始 表达 式 。 如 
果 读 者 具有 监督 学 习 的 基本 知识 ， 则 可 以 容易 地 
理解 权重 向 量 和 样本 x; 投影 之 间 的 点 积 可 以 确定 
Xi 相对 于 分 离 超 平面 的 位 置 。 实 际 上 ， 如 果 两 个 向 
量 之 间 的 角度 小 于 90。 (zx2)， 则 点 积 是 非 负 的 。 
当 角 度 恰 好 是 90"( 即 向 量 是 正 交 的 ) 时 它 等 于 零 ， Gk 
当 角 度 在 90° 和 180" 之 间 时 它 等 于 负数 。 此 决策 过 RR 
程 如 6-14 i Outlier (label -1) 
权重 向 量 与 分 离 超 平面 正 交 。 样 本 xj 被 识别 
为 一 个 内 点 ， 因 为 点 积 为 正 且 大 于 阔 值 p。 相 反 ， 
被 标记 为 异常 值 ， 因 为 决策 函数 的 符号 是 负 的 。 
术语 总 (G 关 0) 被 称 为 松弛 变量 , 并 且 引 入 它们 是 为 
了 使 异常 值 和 内 点 之 间 的 边界 更 灵活 。 实 际 上 ， 如 果 这 些 变 量 都 等 于 零 (并 且 为 了 简单 起 
见 ， 令 p=1)， 则 优化 问题 所 施加 的 条 件 变 为 : 
W(t)1VT eX 


这 意味 着 我 们 必须 将 所 有 训练 样本 视 为 内 点 ， 因 此 必须 选择 分 离 超 平 面 ， 以 便 所 有 





























分 离 超 平面 





















































Inlier (label +1) 
Weight 
vector 
























































图 6-14 ”支持 向 量 机 中 的 决策 过 程 












































































































































































































































166 第 6 章 异常 检测 
Xi 都 位 于 同一 侧 。 但是， 松弛 变量 的 使 用 通过 定义 软 边 界 将 允许 更 大 的 灵活 性 。 每 个 训练 
样本 都 与 一 个 变量 & 相关 联 ， 当 然 ， 问 题 使 它们 最 小 化 。 然 而 ， 通 过 这 个 技巧 ， 一 些 边 
界 样本 即使 继续 被 识别 为 内 点 也 可 以 位 于 超 平面 的 相对 侧 《〈 足 够 接近 )。 要 考虑 的 最 后 一 
个 元 素 是 此 情况 中 最 重要 的 元 素 之 一 ， 它 涉及 超 参 数 v E (0, 1)。 在 上 述 资料 中 ， 作 者 证 
明了 只 要 jp 隆 0, v 就 可 以 被 解释 为 训练 样本 的 分 数 的 上 限 ， 这 实际 上 是 异常 值 。 在 6.2.2 
节 我 们 已 经 说 过 ， 在 新 值 检 测 问 题 中 ， 数 据 集 必须 是 干净 的 。 不 幸 的 是 ， 事 情 并 非 总 是 
如 此 。 因 此 ,，v 和 松弛 变量 的 联合 使 用 使 我 们 能 够 处 理 包 含 一 小 部 分 异常 值 的 数据 集 。 就 
概率 而 言 ， 如 果 半 是 从 噪声 部 分 破坏 的 数据 生成 过 程 中 提取 的 ， 则 v 是 在 卫 中 找到 异常 
值 的 概率 。 

现在 ， 让 我 们 分 析 一 个 用 元 组 年龄 ， 身 高 ) 识别 的 学 生 数 据 集 的 二 维 示 例 。 我 们 将 
从 二 元 高 斯 分 布 中 生成 2000 个 的 内 点 ， 并 均匀 采样 200 个 测试 点 : 





import numpy as np 


nb_samples = 2000 


nb test samples = 200 


X = np.empty(shape= 


X[:nb samples] 


size=nb_ samples) 


X[nb samples:, 
X[nb samples:, 


由 于 比例 不 同 ， 


0] = 
1] = 


(nb samples + nb test samples, 


= np.random.multivariate normal ([15, 


np.random.uniform(11, 
np.random.uniform(120, 


























2)) 


T6017 np oragClle Dy LO; 


19, size=nb test samples) 


210, size=nb test samples) 


在 训练 模型 之 前 最 好 对 数据 集 进行 标准 化 : 


from sklearn.preprocessing import StandardScaler 


ss = StandardScaler () 
Xs = ss.fit transform (XxX) 
一 个 标准 化 的 数据 集 如 图 6-15 所 示 。 


主要 点 还 是 由 内 点 组 成 ， 





是 基 导 


实际 百分比 。 






























































部 分 测试 样本 位 于 同一 高 
假设 在 包含 所 有 样本 的 数据 集中 大 约 有 20% 的 异常 值 〈 
我 们 的 假设 ， 并 且 在 任何 现实 场景 中 ，v 的 
当 这 条 信息 不 可 用 时 ， 最 好 从 较 大 的 值 























到 找到 最 佳 配置 〈 即 错误 分 类 的 概率 最 小 )。 


因此 ， v=0.2)。 








和 直 必 须 始终 反映 数据 集 


(例如 v=0.5) 开始 ， 











然后 逐 





密度 区 域 。 因 此 ， 我 们 可 以 合理 地 
当然 ， 这 样 
中 预期 异常 





的 选择 
常 值 的 








系 渐 


减 小 直 
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图 6-15 单 类 支持 向 量 机 示例 的 数据 集 


同样 重要 的 是 要 记 住 ， 训 练 过 程 有 时 可 以 找到 一 个 次 优 解 。 因 此 ， 一 些 内 点 可 以 标记 
为 异常 值 。 在 这 些 情况 下 ， 最 好 的 策略 是 测试 不 同 内核 的 效果 ， 例 如 在 使 用 多 项 式 内 核 时 ， 
增加 其 复杂 性 ， 直 到 找到 最 优 解 〈 不 一 定 排除 所 有 错误 ) 为 上 上。 


现在 让 我 们 使 用 RBF 内 核 〈 特 别 适 用 于 高 斯 数据 生成 过 程 ) 初始 化 scikit-learn 的 
OneClassSVM 类 的 实例 并 训练 模型 : 

















from sklearn.svm import OneClassSVvM 


ocsvm = OneClassSVM(kernel='rbf', gamma='scale', nu=0.2) 
Ys = ocsvm.fit predict (Xs) 


我 们 基于 以 下 公式 选择 了 建议 值 gamma='scale': 


1 
nestd(X) 


这 种 选择 通常 是 最 佳 起 点 ， 可 以 更 改 (根据 结 果 是 否 可 接受 而 增加 或 减少 )。 在 我 们 的 
例子 中 ， 由 于 数据 集 是 二 维 的 (n=2) 且 标准 化 的 (st4(8) = 1)， 所 以 y= 0.5， 这 对 应 于 单 
位 方差 高 斯 分 布 〈 因 此 ， 我 们 应 该 期 望 它 是 最 合适 的 选择 )。 此 时 ， 我 们 可 以 通过 突出 显示 
异常 值 来 绘制 结果 ， 如 图 6-16 所 示 。 
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图 6-16 “分 类 结果 《〈 左 ) 和 测试 集中 的 异常 值 〈 右 ) 























在 图 6-16 左 图 中 ， 模 型 已 成 功 识别 数据 集 的 较 高 密度 部 分 ， 并 且 还 在 密集 斑点 的 外 部 
区 域 中 将 一 些 样本 标记 为 异常 值 。 它 们 对 应 于 二 维 高 斯 下 的 概率 较 低 的 值 。 在 我 们 的 例子 
中 ， 假 设 它们 是 应 该 被 滤 除 的 噪声 样本 。 在 右 图 中 ， 我 们 可 以 只 看 到 异常 区 域 ， 当 然 ， 这 
是 高 密度 点 的 补充 。 我 们 可 以 得 出 这 样 的 结论 : 即使 有 点 容易 过 度 拟 合 ， 单 类 SVM 也 能 
够 帮助 我 们 以 非常 小 的 错误 概率 识别 新 值 。 由 于 数据 集 的 结构 〈 然 而 ， 在 许多 情况 下 很 党 
见 )， 我 们 可 以 使 用 RBF 内 核 进行 轻松 管理 。 遗 憾 的 是 ， 对 于 高 维 数据 ， 这 种 简单 性 经 常 
丢失 ， 并 且 需 要 更 彻底 的 超 参 搜索 来 最 小 化 错误 率 。 
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LiuF TTing K M 和 ZhouZ 在 1solation Forest, Eighth IEEE International Conference on 
Data Mining 中 提出 了 一 种 非常 强大 的 异常 检测 方法 。 该 方法 基于 集成 学 习 的 总 体 框 架 。 由 
于 这 个 主题 非常 广泛 ， 并 且 主 要 涵盖 在 有 监督 的 机 器 学 习 书籍 中 ， 我 们 建议 读者 在 必要 时 
查阅 相关 资源 。 所 以 ， 在 这 种 情况 下 ， 我 们 将 在 没有 那么 详细 地 引用 所 有 基础 理论 的 背景 
来 描述 模型 。 

首先 ， 我 们 说 森林 是 一 组 称 为 决策 树 的 独立 模型 。 顾 名 思 义 ， 与 算法 相 比 ， 它 们 是 分 
割 数 据 集 的 一 种 非常 实用 的 方法 。 从 根 开始 ， 对 于 每 个 节点 ， 选 择 一 个 特征 和 一 个 阔 值 ， 
并 将 样本 分 成 两 个 子 集 〈 非 二 叉 树 的 结构 不 是 这 样 ， 但 一 般 来 说 ， 模 型 所 涉及 的 树 都 是 二 






























































叉 树 )， 如 图 6-17 所 示 。 
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Feature(U) < Thr(2) 








Feature(k) < Thr(3) 
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在 有 监督 的 任务 中 ， 元 组 (特征 ， 















































的 。 这 意味 着 我 们 的 目标 通常 是 拆 分 节点 ， 以 便 生成 的 子 集 包含 属 于 单个 类 
净 的 或 者 达到 最 大 深度 时 ， 该 过 各 








当然 ， 容 易 理解 的 是 ， 当 所 有 叶子 都 是 纯 








在 此 特定 的 上 下 文中 ， 我 们 从 一 个 非常 特殊 














日 经 过 经 验 订 


图 6-17 二叉树 的 通用 结构 





闪 值 ) 是 根据 使 叶子 的 杂质 最 小 化 的 特定 标准 选择 


的 大 多 数 样本 。 











呈 结 束 。 相 反 ， 














FE 明 ) 的 假设 开始 : 如 果 属 于 孤 





立 森 林 的 树 在 每 次 选择 随机 特征 和 随机 闭 值 时 都 会 生长 ， 那 么 从 根 到 包含 任何 异常 值 的 叶 
子 的 路 径 的 平均 长 度 ， 比 隔离 异常 值 所 需 的 长 度 更 长 。 通 过 考虑 一 个 二 维 随 机 分 区 实例 ， 
我 们 可 以 容易 地 理解 这 种 假设 的 原因 ， 如 



































图 6-18 二 维 随 机 分 




















XxX: 


高 密度 区 域 


nn 
四 一 
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一 个 内 点 是 孤立 











图 6-18 所 示 。 











高 密度 区 域 








低 密 度 区 域 

















的 ( 左 ); 检测 到 属于 低 密度 区 域 的 异常 值 〈 右 ) 














我 们 可 以 观察 到 ， 内 点 通常 属于 高 密度 区 域 ， 需 要 更 多 的 分 区 来 隔离 样本 。 相 反 ， 我 














们 可 以 用 较 少 的 分 区 步骤 检测 位 于 低 密 度 


区 域 中 的 异常 值 ， 因 为 所 需 的 粒度 与 点 的 密度 成 
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常 检测 





















































































































































































































































正比 。 因 此 ， 建 立 孤 立 森 林 的 目的 是 测量 所 有 内 点 的 平均 路 径 长 度 ， 并 将 其 与 新 样本 所 需 
的 路 径 长 度 进行 比较 。 当 这 样 的 长 度 较 短 时 ， 成 为 异常 值 的 概率 增加 。 作 者 提出 的 异常 分 
数 基于 指数 函数 : 
_avg (h(t)) 
Ss(K,m)=e “0 

其 中 , m 是 属于 训练 集 卫 的 样本 数 ，ave(h(x)) 是 考虑 所 有 树 的 样本 x; 的 平均 路 径 长 度 ， 
c(m) 是 仅 依赖 于 m 的 规范 化 项 。 当 sw, m) 一 1 时 ， 样 本 x 被 识别 为 异常 。 因 此 ， 当 s(*) 在 
0 和 1 之 间 时 ， 如 果 我 们 将 阔 值 视 为 0.5， 则 正常 样本 与 值 s(x;, m) < 0.5 相关 联 。 

我 们 现在 考虑 一 下 葡萄 酒 数据 集 ， 其 中 包含 178 个 x;E 久 样本 ， 其 中 每 个 特征 都 是 
特定 的 化 学 性 质 〈 例 如 酒精 、 蔷 果 酸 、 灰 分 等 )， 训 练 珀 立 森 林 以 检测 新 葡萄 酒 是 否 因为 其 
化 学 性 质 与 现 有 样本 不 相 容 ， 被 视 为 内 点 《例如 现 有 品牌 的 变 体 ) 或 异常 值 。 第 一 步 包 括 
加 载 和 规范 化 数据 集 : 

import numpy as np 

from sklearn.datasets import load wine 

from sklearn.preprocessing import StandardScaler 

wine = load wine() 

xX = wine['data'] .astype (np.float64) 

ss = StandardScaler () 

xX = ss.fit transform (xXx) 

我 们 现在 可 以 实例 化 一 个 IsolationForest 类 并 设置 最 重要 的 超 参 数 。 第 一 个 是 n_estimators= 


150, 





上 
(i 

















它 通知 模型 训练 150 棵 树 。 另 一 个 基本 参数 〈 类 似 于 和 








值 表示 训练 集 
的 值 来 解决 存在 可 忽略 数量 的 奇怪 样 
青 查 看 官方 文档 以 获取 更 多 信息 





中 异常 值 












































)， 


初始 化 了 类 ， 就 可 以 训练 模型 了 : 


的 预期 百分比 。 当 我 人 





























] 信 任 数 和 
本 的 问题 。 出 于 兼容 性 原 











类 SVM 中 的 v) 是 contamination， 
居 集 时 , 我 们 选择 了 一 个 等 于 0.01 (1%) 
因 插 入 了 参数 behaviour='new' 











同时 random state=1000 保证 了 实验 的 可 重复 性 。 


from sklearn.ensemble import IsolationForest 


isf = IsolationForest(n estimators=150, 


behaviour='new', 


contamination=0.01, random state=1000) 


Y pred = isf.fit predict( 


Xx) 
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print('Outliers in the training set: {}'.format (np.sum(Y pred == -1))) 
代码 的 输出 是 : 
2 














因此 ， 和 孤立 森林 已 成 功 识别 178 个 内 点 中 的 176 个 。 我 们 接受 这 个 结果 ， 但 是 ， 像 往 
常 一 样 ， 我 建议 调整 参数 以 获得 与 每 种 特定 情况 都 兼容 的 模型 。 此 时 ， 我 们 可 以 生成 一 些 
虹 声 样本 : 











一 


import numpy as np 


Xtest 1 = np.mean(X) + np.random.normal (0.0, 1.0, size=(50, 13)) 





XxX test 2 = np.mean(X) + np.random.normal (0.0, 2.0, size=(50, 13)) 
XxX test = np.concatenate ([X test 1, XxX test 2], axis=0) 











测试 集 分 为 两 个 块 。 第 一 个 数组 X test 1 包含 具有 相对 低 噪声 水 平 〈o=1) 的 样本 ， 
而 第 二 个 数组 X test 2 包含 更 多 噪声 样本 〈c=2)。 因 此 ， 我 们 预计 第 一 个 数组 中 的 异常 值 
较 低 ， 而 第 二 个 数组 中 的 异常 值 较 大 。 数 组 X_test 是 两 个 测试 集 的 有 序 串 联 。 我 们 现在 预 
测 一 下 状态 。 由 于 这 些 值 是 双 极 性 的 ， 我 们 希望 将 它们 与 训练 结果 区 分 开 来 ， 因 此 将 把 预 
测 时 间 乘 以 2《〈 即 -1 表示 训练 集中 的 异常 值 ，1 表示 训练 集中 的 输入 值 ，-2 表示 测试 集中 
的 异常 值 ，2 表示 测试 集中 的 输入 值 ): 















































































































































Y test = isf.predict (xX test) * 2 


Xf = np.concatenate([X, X test], axis=0) 
Yf = np.concatenate([Y pred, Y test], axis=0) 





Delinit (YE [el ) 





输出 如 下 : 
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随 着 顺序 的 保留 和 反 转 ， 我 们 可 以 看 到 属于 X_test 2 高 方差 ) 的 大 多 数 样本 被 归 类 
为 异常 ,而 大 多 数 低 方差 样本 被 识别 为 内 点 .为 了 进一步 进行 视觉 确认 ,我 们 可 以 执行 上 SNE 
进行 降 维 ， 考 虑 最 终结 果 是 二 维 分 布 ， 其 与 原始 (13 维 ) 的 Kullback-Leibler 散 度 最 小 。 这 
意味 着 得 到 的 维度 的 可 解释 性 非常 低 ， 并 且 该 图 仅 可 用 于 理解 二 维 空间 的 哪些 区 域 更 可 能 
被 内 点 占据 : 
























































from sklearn.manifold import TSNE 





tsne = TSNE(n components=2, perplexity=5, n iter=5000, random state=1000) 
xX tsne = tsne.fit transform (Xf) 























新 值 检 测 结果 如 图 6-19 所 示 。 
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图 6-19 tf-SNE 图 用 于 葡萄 酒 数 据 集 的 新 值 检测 



































我 们 可 以 看 到 ， 许 多 接近 训练 内 点 的 样本 本 身 就 是 内 点 。 一 般 来 说 ， 几 乎 所 有 远 端 测 
试 样本 都 是 异常 值 。 然 而 ， 由 于 剧烈 的 降 维 ， 很 难得 出 更 多 结论 。 然 而 ， 我 们 知道 当 噪声 
足够 小 时 ， 找 到 内 点 的 概率 很 大 《〈 这 是 一 个 合理 的 结果 )。 作 为 练习 ， 我 建议 大 家 检查 单个 
化 学 性 质 ， 对 于 每 种 化 学 性 质 或 对 于 组 ， 找 出 将 内 点 变换 为 异常 值 的 闷 值 例如 回答 这 个 
问题 ， 与 训练 集 相 容 的 最 大 酒精 量 是 多 少 )。 
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6.8 总 结 














在 本 章 中 , 我 们 讨论 了 概率 密度 函数 的 性 质 以 及 如 何 将 其 用 于 计算 实际 概率 和 相对 

















似 然 。 我 们 已 经 知道 了 如 何 创建 直方 图 ， 
些 
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这 是 在 将 值 分 组 到 预定 义 的 条 柱 中 之 后 表示 值 














频率 的 最 简单 方法 。| 





于 直方 图 有 























局 限 性 (它们 非常 不 连续 且 很 难 找到 最 佳 条 柱 





的 











大 小 )， 我 们 引入 了 核 密度 估计 的 概念 ， 这 是 一 种 使 用 平滑 函数 估算 密度 的 稍微 复杂 的 





方法 。 


我 们 已 经 分 析 了 最 常见 内 核 〈 高 








「、Epanechnikov、 


指数 和 均匀 〉 的 特性 ， 以 及 两 种 





可 用 于 找 出 每 个 数据 集 的 最 佳 带宽 的 经 验方 法 。 使 用 这 














解决 








个 非常 简单 的 单 变量 问题 。 我 从 








含 几 个 正常 和 恶意 网 络 连接 的 日 





志 记 录 























的 简单 异常 检测 系统 ， 并 角 
































所 有 训练 集 





症 释 了 在 处 到 


《除了 一 小 部 分 ) 都 是 





























化 内 点 与 特征 空间 的 原点 之 间 的 分 离 ， 并 
扳 立 森林 是 一 种 集合 模型 ， 它 基于 这 相 




















对 于 异常 值 来 说 平均 较 短 。 












































因此 ， 在 训练 森林 之 后 ， 我 们 








叮 以 考虑 给 定 间 




















' 技 术 ， 我 们 尝试 基于 合成 数据 集 





] 分 析 了 KDD Cup 99 数据 集 的 HTTP 子 集 ， 
。 并且 我 们 使 用 KDE 技术 创建 了 一 个 基于 两 个 阔 值 
这 些 问题 时 必须 考虑 哪些 因素 。 
在 最 后 一 部 分 中 ， 我 们 分 析 了 可 用 于 执行 新 值 检测 的 两 种 常用 方法 。 单 类 SVM 利用 
内 核 的 强大 功能 将 复杂 数据 集 投影 到 可 以 线性 分 离 的 特征 空间 。 下 一 步 基于 
内 点 ， 因 此 它们 属于 同一 类 。 训 练 该 模型 的 目的 是 最 大 
结果 基于 样本 相对 于 分 离 超 平面 的 位 置 。 相 反 ， 
的 假设 : 在 随机 训练 的 决策 树 中 从 根 到 样本 的 路 径 


i 样本 的 平均 路 径 长 度 来 计 入 








其 中 包 














这 样 的 假设 : 



































异常 分 数 。 


当 这 样 的 分 数 接近 1 时 ， 我 们 可 以 得 出 异常 的 概率 也 非常 大 的 结论 。 相 反 ， 非 常 小 的 分 数 











值 表明 新 值 是 潜在 的 内 点 。 





























量 特征 的 数据 集 时 非常 有 用 。 












































在 第 7 章 中 ， 我 们 将 讨论 最 常见 的 降 维 和 字典 学 习 技术 ， 这 些 技术 在 需要 管理 























\ 有 大 

















1. 一 个 人 身高 1.70 米 的 概率 是 p(741D) = 0.75, 而 明天 下 雨 的 概率 是 P(Rain) = 0.2。P(Tall, 


6.9 问题 
Rain) 的 概率 是 多 少 ? (也 就 是 说 ， 




















都 是 空 的 。 为 什么 会 这 样 ? 


个 人 身高 1.70 米 

















明天 下 雨 的 概率 。) 





2. 给 定数 据 集 了， 我 们 构建 一 个 包含 1000 个 条 柱 的 直方 图 ， 并 且 发 现 它们 中 的 许多 




















3. 直方 图 包含 3 个 条 柱 ， 分 别 包 含 20、30 和 25 个 样本 。 第 一 个 的 范围 为 0<x< 2， 





AAA 
EB 
2 





人 

















范围 为 2 <x < 4， 第 三 个 的 范围 


4. 给 定 正 态 分 布 W0, 1)，p(x) = 0.35 的 村 

















为 4<x<6。P(x) > 2 的 概率 是 多 少 ? 
EF 本 x 是否 可 以 被 视 为 异常 ? 
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5. 具有 500 个 样本 的 数据 集 和 有 st4(2) = 2.5 和 71ORCO = 3.0。 其 最 佳 带宽 是 多 少 ? 

6. 一 位 专家 告诉 我 们 ， 分布 在 两 个 值 附 近 都 达到 了 峰值 ， 密 度 突然 从 峰值 均值 下 降 了 
0.2 个 标准 差 。 选 择 哪 种 内 核 最 合适 ? 

7. 给 定 样本 x 从 10000 个 样本 流 人 口中 收集 )， 我 们 不 确定 它 是 异常 值 还 是 新 值 ， 
为 p(x) = 0.0005。 在 另外 10000 次 观察 之 后 ， 我 们 重新 训练 模型 并 且 x 保持 p(x) < 0.001。 
我 们 可 以 得 出 x 是 一 个 异常 的 结论 吗 ? 











































































































U ZU 
届 吕 六 加 加 浊 剖 卫 间 隐 胃 吉 











在 本 章 中 ， 我 们 将 介绍 和 讨论 可 用 于 执行 降 维和 分 量 提取 的 一 些 非常 重要 的 技术 。 降 
维 的 目标 是 将 高 维 数据 集 转换 为 低 维 数据 集 ， 以 尽量 减少 信息 丢失 。 分 量 提 取 是 一 种 找到 
可 以 混合 的 原子 字典 以 构建 样本 所 需 的 过 程 。 

本 章 将 着 重 讨论 以 下 主题 。 

。 主 成 分 分 析 (Principal Component Analysis,，PCA)。 






















































































。 奇异 值 分 解 〈Singular Value Decomposition，SVD ) 和 白化 。 
。 基于 内 核 的 主 成 分 分 析 。 

。 稀疏 主 成 分 分 析 与 字典 学 习 

。 因子 分 析 。 

。 独立 成 分 分 析 (Independent Component Analysis，ICA)。 




















。 非 负 矩阵 分 解 (Non-Negative Matrix Factorization，NNMEF ) 。 


。 潜在 Dirichlet 分 配 (Latent Dirichlet Allocation，LDA ) 。 


7.1 技术 要 求 


本 章 中 的 代码 需求 如 下 。 

。 Python 3.5+ (强烈 推 荐 Anaconda 发 行 版 )。 

。 库 。 
mn SciPy 0.19+。 
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NumPy 1.10+。 
Scikit-learn 0.20+。 
pandas 0.22+。 
Matplotlib 2.0+。 


seaborn 0.9+。 


示例 代码 可 以 从 本 书 配套 的 代码 包 中 获取 。 


7.2 主 成 分 


分 析 














降低 数据 集 维度 的 常用 方法 2 

















变量 的 信息 内 容 与 其 方差 成 正比 。 





下 所 示 : 























是 基于 样 




















F 本 协 方差 算 阵 的 分 析 。 通 常 ， 我 们 知道 随机 




















例如 给 定 多 元 高 斯 ， 焙 用 来 测量 信 ， 


H Flog(det(2ne 之 )) 



















































































息 的 数学 表达 式 ， 如 













































































在 前 面 的 公式 中 , 区 是 协 方差 矩阵 。 如 果 我 们 假设 三 是 对 角 的 (不 损失 一 般 性 )， 则 很 
容易 理解 炉 大 于 成 比例 地 ) 每 个 单个 分 量 的 方差 o7?。 这 并 不 奇怪 ， 因 为 具有 低 方 差 的 随 
机 变量 集中 在 均值 附近 ， 并 且 发 生意 外 的 概率 很 低 。 另 一 方面 ， 当 of 变 得 越 来 越 大 时 ， 洪 
在 的 结果 随 着 不 确定 性 的 增加 而 增加 ， 这 与 信息 量 成 正比 。 

当然 ， 分 量 的 影响 通常 是 不 同 的 。 因 此 ， 主 成 分 分 析 的 目标 是 找到 可 以 将 它们 投影 到 
较 低 维 子 空间 的 样本 的 线性 变换 ， 从 而 保留 最 大 数量 的 初始 方差 。 在 实践 中 ， 让 我 们 考虑 
一 个 数据 集 XE 为 ”":; 

了 = 声 , 瑟 ,…, 元 ,}, 其 中 元 eRR” 
我 们 想 要 找到 的 线性 变换 是 一 个 新 的 数据 集 ， 如 下 所 示 : 
Z= 伍 , 巴 ,…, 巴 }, 其 中 三 =A 到 
应 用 此 类 变换 后 ， 我 们 希望 具有 以 下 内 容 : 
dim(z;) < (<)dim(x, )vi 
H(z)~H(x) 
让 我 们 开始 考虑 样本 协 方差 矩阵 (为 了 我 们 的 目的 ,我们 也 可 以 使 用 偏差 估计 )。 为 简 














单 起 见 ， 我 们 还 假设 外 的 均值 为 零 : 
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2, -1 yry eR™ 
m 





这 样 的 矩阵 是 对 称 和 半 正 定 的 〈 如 果 你 不 熟悉 这 些 概念 也 没关系 ， 但 它们 对 于 证 明 以 
下 步骤 非常 重要 )， 因 此 它 的 特征 向 量 构成 了 正 交 标准 。 快 速 回顾 一 下 ， 如 果 4 是 方 阵 并 满 
足以 下 条 件 ， 则 向 量 vj 称 为 与 特征 值 4 相关 的 特征 向 量 : 
Ax, = A 


换 句 话说 ,特征 向 量 被 转换 为 其 自身 的 扩展 或 缩小 版 本 (不 发 生 旋 转 )。 要 证 明 协 方差 
矩阵 的 特征 向 量 定 义 了 协 方差 分 量 的 方向 〈( 即 数据 集 具 有 特定 协 方差 分 量 的 方向 ) 并 不 困 
难 〈 但 将 忽略 所 有 的 数学 细节 )。 原 因 很 简单 ， 事 实 上 ， 在 变换 之 后 ， 新 的 协 方差 矩阵 〈 转 
化 后 的 数据 集 Z) 是 不 相关 的 《也 就 是 说 ， 它 是 对 角 的 )， 因 为 新 轴 与 协 方差 分 量 对 齐 。 这 
意味 着 一 个 versor， 例 如 wm = (1 0, 0, …, 0) 被 转换 为 ojv;， 因 此 它 是 一 个 特征 向 量 ， 其 相关 
的 特征 值 与 第 i 个 分 量 的 方差 成 正比 。 

因此 ,为 了 找 出 哪些 元 素 可 以 丢弃 ,我 们 可 以 对 特征 值 进行 排序 ， 以 便 满足 以 下 条 件 : 


义气 力 所 


相应 的 特征 向 量 (yi, v2,…, va) 分 别 确定 对 应 于 最 大 方差 的 分 量 ， 依 此 类 推 ， 直 到 最 
后 一 个 。 在 形式 上 ， 我 们 将 这 些 特 征 向 量 定义 为 主 成 分 。 因 此 ， 第 一 主 成 分 是 与 最 大 方差 
相关 联 的 方向 ， 第 二 主 成 分 与 第 一 主 成 分 正 交 ， 并 且 它 与 第 二 大 方差 相关 联 ， 依 此 类 推 
对 于 二 维 数据 集 ， 此 概念 如 图 7-1 所 示 。 


10 T 






































































































































































































































图 7-1 二 维 数 据 集 的 主 成 分 ， 第 一 个 主 成 分 沿 着 方差 最 大 的 轴 ， 
而 第 二 个 主 成 分 正 交 ， 并 且 与 剩余 方差 成 比例 
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此 时 ， 问 题 几乎 解决 了 。 事 实 上 ， 如 果 我 们 只 选择 前 大 个 主 成 分 (wE 因 "  )， 就 可 以 
建立 一 个 变换 矩阵 44e 完 "**， 从 而 将 与 前 个 特征 值 相关 的 特征 向 量 作 为 行 : 


TO) TD 
Vv ee Vr 














4=| : : 

VD 

因此 ， 我 们 可 以 使 用 以 下 和 矩阵 乘法 转换 整个 数据 集 : 
Z =X4 where Z eR™ 


新 数据 集 Z 的 维 数 大 小 于 《或 远 小 于 ) n， 它 包含 与 分 量 数 成 正比 的 原始 方差 量 。 例 如 
考虑 图 7-1 中 所 展示 的 示例 ， 如 果 我 们 选择 单个 分 量 ， 那 么 所 有 向 量 都 将 沿 着 第 一 个 主 分 
量 转换 为 点 。 当 然 ， 会 有 一 些 信息 需要 我 们 逐个 考虑 。 在 以 下 各 节 中 ， 我 们 将 讨论 如 何 评 
估 此 类 损失 并 做 出 合理 的 决策 。 现 在 ， 我 们 将 简要 介绍 如 何以 有 效 的 方式 提取 主 成 分 。 


7.2.1 具有 奇异 值 分 解 的 PCA 


尽管 我 们 将 采用 完整 的 PCA 实现 方法 ,但 了 解 如 何 有 效 地 执行 此 类 过 程 将 会 很 有 帮助 。 
当然 ， 最 明显 的 方法 是 基于 样本 协 方差 矩阵 的 计算 ， 其 特征 分 解 〈 将 输出 特征 值 和 相应 的 特 
征 向 量 ) 最 后 可 以 构建 变换 矩阵 。 这 种 方法 很 简单 ， 但 不 幸 的 是 ， 它 的 效率 很 低 。 主 要 原因 
是 我 们 需要 计算 样本 协 方差 矩阵 ， 这 对 于 大 型 数据 集 来 说 可 能 是 一 项 很 耗 时 的 任务 。 

奇异 值 分 解 提供 了 一 种 更 为 高 效 的 方法 ， 它 是 一 个 具有 一 些 重 要 特征 的 线性 代数 过 
程 : 它 可 以 直接 在 数据 集 上 运行 ， 可 以 在 提取 所 需 数量 的 分 量 时 停止 并且 有 可 以 与 小 
批量 一 起 使 用 的 增 量 版 本 ,克服 了 内 存 不 足 的 问题 。 考 虑 到 数据 集 XE 园 ”“，SVD 可 以 
表示 为 : 






































































































































































































































































































































X=UAV" whereU eR™™,A=diag(n xn),V eR”™ 


过 是 一 个 单位 矩阵 ( 即 UU7 = VIU=7 因此 UV = U7"), 包含 左 侧 奇异 向 量 作 为 行 (XX 
的 特征 向 量 ); VV( 也 是 单一 的 ) 包含 右 侧 奇 异 向 量 作为 行 ( 对 应 于 ZY 针 的 特征 向 量 ),， 而 4 
是 包含 m5 奇异 值 的 对 角 和 矩阵 (它们 是 XX' 和 XY 的 特征 值 的 平方 根 )。 特 征 值 按 降序 排 
序 ， 并 且 重 新 排列 特征 向 量 以 匹配 相应 的 位 置 。 由 于 1/m 因子 是 乘法 常数 ， 它 不 会 影响 特 
征 值 的 相对 大 小 ， 因 此 ， 排 列 顺序 保持 不 变 。 因 此 ， 我 们 可 以 直接 使 用 VV 或 U， 并 从 4 中 
选择 前 个 特征 值 。 特 别 地 ， 我 们 可 以 观察 到 以 下 结果 (因为 变换 矩阵 4 等 于 由: 

Z=X4=UAV'A4=UAVV=UA 
因此 ， 通 过 使 用 截断 版 的 Ui〈 仪 包含 前 个 特征 向 量 ) 和 A 〈 仅 包含 前 个 特征 













































































































































































让 )， 
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我 们 可 以 














这 种 方 
管 我 们 在 本 
个 最 大 特 和 

















法 快速 、 








书 中 没有 使 用 这 样 

















出 于 我 们 的 
化 

















SVD 的 一 个 寻 
具有 





为 中 心 ) 


目 





有 效 ， 




















的 ， 将 使 用 标准 














的 场景 > 




















Z = UA 









































非常 有 用 ， 


将 分 解 














这 可 以 受益 于 所 有 分 量 





必 


用 于 C， 








奇异 值 是 特 














在 使 用 前 面 





从 前 面 


现在 ， 





的 分 角 


的 等 


式 ， 我 们 可 以 得 


要 应 用 是 白化 过 程 ， 
































我 们 得 


方 根 )。 因 














AA =VAV 











我 们 将 使 / 








j 一 个 小 的 测试 数据 及 


import numpy as np 














VAV" =J 


含 特征 值 的 对 角 和 矩阵 ( 训 
寻 此 ， 我 们 需要 找到 一 个 线性 变换 ，z = 4x， 使 ELZZ] = 
非常 简单: 





这 些 变 体 要 


1 
=7 > A=rVA? 














from sklearn.datasets import make blobs 


xX, 


random state=1000) 


Print(nps Cow(X TL).) 


代码 块 


[[6.37258226 0.40799363] 
[0.40799363 6.32083501 





的 输出 显示 了 数据 











集 的 协 方差 外 








E 阵 ， 如 下 所 示 : 


日 


二 展示 白化 的 效果 ， 


直接 获得 低 维 变换 数据 集 (具有 个 分 量 )， 如 下 所 示 : 


并 且 在 数据 集 太 大 而 无 法 放 入 内 存 时 可 以 方便 
但 关于 scikit-learn 的 TruncatedSVD 类 〈 
F 值 的 SVD) 和 IncrementalPCA 类 a PCA) 对 我 们 是 有 帮助 的 。 
全 PCA 类 和 一 些 重要 变 体 ， 



































地 进行 缩放 。 
执行 

















多 监督 算法 的 性 








=AVAV'A' =J1 


如 下 所 示 : 


_ = make blobs(n samples=300, centers=1, cluster std=2.5, 


尽 


限于 


入 求 整 个 数据 集 适应 内 存 。 


它 强制 均值 为 null 的 数据 集 钱 ( 即 E[ 旭 =0 或 以 0 
个 单位 协 方差 矩阵 C〈 真 实 且 对 称 )。 这 种 方法 对 提高 许 
共享 的 统一 单一 方差 。 
到 以 下 结 
C=E[X'X]= 
矩阵 了 的 列 是 C 的 特征 向 量 ， 而 4 是 包 
征 向 量 的 平 
坚 时 ， 这 
C= E[Z'Z]=E[AXY XA4]= AE[X' X]A 
出 变换 矩阵 4 的 表达 式 : 


-会 已 


用 








§ 记 住 ，SVD 输出 的 
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中 (正确 的 参数 会 在 白化 后 强制 比例 校正 ): 











import numpy as np 


def zero center (X) : 
return X - np.mean(X, axis=0) 


def whiten(X, correct=True): 
XC = Zero center (XI) 
,LL,V= np.linalg.svdl(xc) 
W = np.dot(V.T, np.diag(1.0 / L)) 


return np.dot (Xc, W) * np.sqrt(X.shape[0]) 





应 用 于 数据 集 凶 的 白化 结果 如 图 7-2 所 示 。 


Original dataset 

















图 7-2 原始 数据 集 ( 左 ) 和 











uy 





我 们 现在 可 以 检查 新 的 协 方差 矩阵 ， 如 下 所 示 : 








import numpy as np 


Xw = whiten (X) 
print (np.cov (Xw.T)) 


输出 如 下 : 


[[1.00334448e+00 1.78229783e-17] 
[1.78229783e-17 1.00334448e+00]] 





用 于 对 通用 数据 集 执行 白化 的 函数 whiten0《〈 归 零 是 过 程 的 一 部 分 ) 显示 在 以 下 代码 


if correct else 1.0 


Whitened dataset 
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可 以 看 出 ， 和 矩阵 现在 是 一 个 恒等式 (具有 最 小 误差 );， 并 且 数 据 集 也 具有 空 均值 。 
7.2.2 具有 MNIST 数据 集 的 PCA 


现在 让 我 们 应 用 PCA 来 减少 MNIST 数据 集 的 维 数 。 我 们 将 使 用 scikit-learn 提供 的 压 
缩 版 本 (1797 张 ，8 像素 x8 像素 图 像 )， 但 我 们 的 考虑 不 会 受到 出 
居 集 开始 : 





加 载 和 规范 化 数 


日 
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这 表明 以 下 所 有 分 量 的 解释 方差 量 显著 下 降 。 为 了 更 好 地 理解 这 种 机 制 ， 我 们 需要 计 
因为 协 方差 矩阵 C 是 半 正 定 的 ， 我 1 





























选择 的 影响 。 让 我 们 从 


from sklearn.datasets import load digits 


digits = load digits() 


xX = digits['data'] 


通过 到 
解释 的 差异 ， 

















以 下 差异 : 








上 了 


LE 论 讨论 ， 我 们 知 
因此 提供 的 信息 内 容 ) 成 正比 。 因 
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/ np.max (digits['data']) 





协 方差 矩阵 特征 值 的 大 小 与 相应 主 成 分 的 相对 重要 性 〈 也 就 
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import numpy as np 
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展 平 图 像 (64 维 数组 ) 每 个 主 成 分 
出 ， 主 成 分 的 差异 非 


我 们 可 以 


ES 














= np.cov(X.T) 


np SSEt() :=| 
:1.shape[0]-1] 

















Vv = np.linalg.eig(C) 
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的 特征 值 差 异 如 


此 ， 如 果 它 们 按 降序 排列 ， 则 我 们 可 以 
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门 可 以 通过 选择 第 一 个 最 大 差异 来 选择 最 佳 
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7-3 所 示 。 
四 主 成 分 (4 天) 达到 最 大 
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并 且 对 应 于 











然而 ， 下 一 个 差异 仍然 非常 大 ， 而 对 应 于 46 突然 下 降 。 此 时 ， 趋 势 几乎 是 稳定 的 《除了 一 


些 残 余 振 荡 )， 直 到 X11。 然 后 它 开始 
将 选择 = 16 ( 
» 甚至 上 = 8。 但 是 
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迅速 地 减 小 ， 趋 于 零 。 由 于 我 们 仍然 想 要 得 至 
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相当 于 将 每 一 边 除 以 4)。 在 别 的 任务 中 ， 你 可 以 选 
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， 为 了 更 好 地 理解 降 维 所 引起 的 误差 ， 分 析 解 释 方 








此 ， 让 我 们 从 执行 PCA 开始 : 


from sklearn.decomposition import PCA 
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pca = PCA(n components=16, random state=1000) 
digits pca = pca.fit transform (XxX) 


Eigenvalue difference 
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图 7-3 每 个 主 成 分 的 特征 值 差异 
对 模型 进行 拟 合 ， 并 将 所 有 样本 投影 到 对 应 于 前 16 个 主 成 分 的 子 空间 之 后 ， 我 们 
将 获得 数组 digits_pca。 如 果 我 们 想 要 将 原始 图 像 与 它们 的 重建 进行 比较 ， 我 们 需要 调 
方法 inverse_transform() 对 原始 空间 进行 投影 ,因此 , 如果 PCA 在 这 种 情况 下 是 变换 fx): 
4 一 加 25， 则 逆 变 换 是 g(z): 轩 “一 园 “。 前 10 个 数字 的 原始 样本 与 其 重建 之 间 的 比较 如 
图 7-4 所 示 。 


国电 因 同 四 风 四 同 阿 加 
[EE I EN EE] 


图 7-4 原始 样本 (上 ) 和 重建 (下 ) 


重建 显然 是 有 损 的 , 但 数字 仍然 是 可 区 分 的 。 现在 , 让 我 们 通过 对 数组 explained variance 
ratio 的 所 有 值 求 和 来 检查 总 解释 方差 ， 该 数组 包含 每 个 分 量 的 解释 方差 的 相对 量 〈 以 便 任 
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何 大 < 个 分 量 的 总 和 始终 小 于 1): 
print (np.sum(pca.explainedq variance ratio ) ) 


代码 段 的 输出 如 下 : 


0.8493974642542452 


因此 , 在 维 数 减少 到 16 个 分 量 的 情况 下 , 我 们 解释 了 大 约 85% 的 原始 方差 。 这 是 一 个 





合理 的 值 ， 因 为 我 们 为 每 个 样本 丢弃 了 48 个 分 量 。 
对 应 于 每 个 主要 成 分 的 解释 方差 比如 图 7-5 所 示 。 


1 2 3 4 5 6 了 8 9 10 11 人 2 13 


14 15 16 


Explained variance ratio 
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00 


Components 





7-5 对 应 于 每 个 主 成 分 的 解释 方差 比 


正如 预期 的 那样 ， 解 释 方差 比 趋 于 减少 。 因 为 在 这 种 情况 下 ， 第 一 主 成 分 是 主要 的 ， 例 如 
对 于 一 种 颜色 (例如 黑色 或 白色 ) 的 线条 ， 而 其 余 的 则 是 灰 度 。 这 种 行为 非常 普遍 ， 几 乎 在 所 有 
情况 下 都 可 以 观察 到 。 通 过 这 个 图 表 , 我 们 还 可 以 轻松 找到 额外 的 损失 ,并 可 以 进一步 减少 这 种 
损失 。 例 如 我 们 可 以 发 现 , 对 3 个 成 分 的 严格 限制 将 解释 约 40% 的 原始 方差 ， 因此 , 剩余 的 45% 








被 拆 分 为 其 余 13 个 成 分 。 我 建议 你 重复 此 示例 ， 尝 试 找到 区 分 所 有 数字 所 需 的 最 小 分 
7.2.3 ”基于 内 核 的 主 成 分 分 析 


- 恒 . 


屋 


县 o 





有 时 ,数据 集 不 能 进行 线性 分 离 ， 并 且 标 准 PCA 无 法 提取 正确 的 主 成 分 。 当 我 们 面 对 
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非 凸 聚 类 的 问题 时 ， 该 过 程 与 第 3 章 中 讨论 的 过 程 并 无 不 同 ， 在 这 种 情况 下 ， 由 于 几何 形 
状 ， 一些 算法 无 法 成 功 执行 分 离 。 在 这 种 情况 下 ， 我 们 的 目标 是 根据 主 成 分 的 结构 区 分 不 
同 的 类 (在 纯粹 的 、 无 监督 的 场景 中 ,我 们 考虑 特定 的 分 组 )。 因 此 ， 我 们 希望 使 用 转换 后 
的 数据 集 Z， 并 检测 是 否 存在 可 区 分 的 阔 值 ， 如 图 7-6 所 示 。 
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图 7-6 原始 数据 集 ( 左 ) 和 PCA 投影 版 本 ( 右 ) 


由 于 原始 数据 集 是 线性 可 分 离 的 ， 因此 在 PCA 投影 之 后 , 我 们 可 以 立即 找到 允许 检测 
的 第 一 个 分 量 ( 这 是 唯一 真正 需要 的 分 量 〉 的 闵 值 ， 以 便 区 分 这 两 块 样本 。 但 是 ， 如 果 原 
始 数据 集 不 是 线性 可 分 离 的 ， 我 们 会 得 到 一 个 不 可 接受 的 结果 ， 如 图 7-7 所 示 。 
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图 7-7 原始 数据 集 ( 左 ) 和 PCA 投影 版 本 〈 右 ) 


当 几 何 体 更 复杂 时 ， 找 到 可 区 分 的 阔 值 是 不 可 能 的 。 但 是 ， 我 们 知道 将 数据 投影 到 更 
高 维 空间 可 以 使 它们 线性 分 离 。 特 别 地 ， 如 果 xE 恩 "， 我 们 可 以 选择 一 个 合适 的 函数 ,/o)， 
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使 得 y = fx)s 完 ?， 其 中 p 污 n。 不 幸 的 是 ， 将 此 转换 应 用 于 整个 数据 集 可 能 非常 昂贵 。 事 
实 上 ， 给 定 一 个 转换 矩阵 4 (及 n 个 分 量 )， 单 个 分 量 au 在 投影 之 后 ， 可 以 写成 如 下 公式 
《 记 住 它 们 是 协 方差 矩阵 的 特征 向 量 ): 


WO = 2 Ba" = fm) 
i : 






























































因此 ， 单 个 向 量 的 转换 如 下 : 





FD [Zeve JG) 











ly 





























我 们 可 以 看 出 ,转换 需要 计算 点 积 fx) Whx)。 在 这 些 情况 下 ,我 们 可 以 使 用 所 谓 的 内 核 技巧 
(Kernel Trick)， 它 表明 存在 称 为 内 核 的 特定 函数 K(:，*)， 具 有 一 个 有 趣 的 属性 ， 如 下 所 示 : 
K(X,x,) = f(x%) f(x,) 
换 句 话说 ， 我 们 可 以 通过 简单 地 计算 每 对 点 的 内 核 来 计算 高 维 空间 中 主 成 分 的 投影 ， 
而 不 是 执行 点 积 ， 这 需要 在 计算 有 ) 之 后 进行 n 次 乘法 。 
一 些 常见 的 内 核 如 下 所 示 。 
。 径 向 基 范 数 或 高 斯 内 核 : 




















































































































。 次 数 为 p 的 多 项 式 内 核 : K(x,x,))=(a+ bx x,)? 


e’(a+bx, «Xx,)—!1 
。 sigmoid 内 核 : K(X,X,)= 7 
. Ss el(a+tbx, »T,)+1 






















































































对 于 非常 大 的 数据 集 ， 该 过 程 仍然 相当 昂贵 (但 是 可 以 预先 计算 和 存储 内 核 值 ， 以 避 
免 浪 费 额外 的 时 间 ), 但 它 比 标准 投影 更 有 效 。 此 外 ， 它 的 优点 是 允许 在 可 能 进行 线性 分 离 
的 空间 中 提取 主 成 分 。 现 在 ， 让 我 们 将 基于 RBF 内 核 的 PCA 应 用 于 图 7-7 中 显示 的 半月 
数据 集 。 参 数 gamma 等 于 1/o*。 在 这 种 特殊 情况 下 ， 应 用 的 主要 问题 是 存在 双重 重 炙 。 
考虑 到 原始 标准 差 约 为 1.0 (也 就 是 of = 1)， 我 们 至 少 需要 3 个 标准 差 才 能 正确 区 分 它们 。 
因此 ， 我 们 将 设置 y = 10: 
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from sklearn.datasets import make _ moons 
from sklearn.decomposition import KernelPCA 


X, Y = make moons (n samples=800, noise=0.05, random state=1000) 
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kpca = KernelPCA(n components=2, kernel='rbf', gamma=10.0,random state=1000) 
X pca = kpca.fit transform (XxX) 





原始 数据 集 和 投影 版 本 如 图 7-8 所 示 。 
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RBF Kernel PCA projected dataset 
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原始 数据 集 ( 左 ) 和 了 RBF 内 核 PCA 投影 版 本 〈 右 ) 
我 们 可 以 看 出 ， 即 使 在 这 种 情况 下 ， 





02 04 


第 一 个 分 量 也 足以 做 出 决定 〈 由 于 噪声 、 公 差 最 


小 ) 将 阀 值 设置 为 0 并 允许 分 离 数 据 集 。 我 建议 读者 测试 其 他 内 核 的 效果 并 应 用 它们 ， 以 



































便 区 分 全 是 0 和 全 是 1 的 MNIST 子 集 。 


7.2.4 通过 因 了 于 分 析 增 加 异 方差 噪声 的 强壮 性 


标准 PCA 的 主要 问题 之 一 是 这 种 模型 在 异 方差 噪声 方面 的 内 在 弱点 。 如 果 你 不 熟悉 这 
个 术语 ， 那 么 引入 下 面 这 两 个 定义 会 很 有 帮助 。 多 变量 去 相关 噪声 项 的 特征 在 于 对 角 协 方 
差 和 矩阵 C， 它 可 具有 两 种 不 同 的 配置 ， 如 下 所 示 。 














e C= diag(o”, 性 


同 的 方差 )。 


e C= diag(o1’, ao 人 0 ), 并 且 or 关 o> 闫 A or: 在 




















方差 的 (每 个 分 量 都 有 自己 的 方差 )。 











我 们 可 以 证 明 ， 当 噪声 是 等 方差 时 ，PCA 可 以 轻松 地 对 
解释 方差 以 相同 的 方式 受到 噪声 项 的 影响 〈 也 就 是 说 ， 这 相当 于 没有 噪声 )。 相 反 ， 当 噪声 
是 异 方差 时 ，PCA 的 性 能 下 降 ， 结 果 可 能 是 绝对 不 可 接受 的 。 出 于 这 个 原因 ，RubinD. 和 











, 0 ); 在 这 种 情况 下 ， 噪 声 被 定义 为 等 方差 的 (所 有 分 量具 有 相 





这 种 情况 下 ， 噪 声 被 定义 为 蜡 











进行 管理 ， 
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因为 单个 分 量 的 
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Thayer D. (在 EM algorithms for ML factor analysis 中 ) 提出 了 一 种 替代 降 维 方法 ， 称 为 因 
子 分 析 ， 可 以 解决 这 类 问题 。 
假设 我 们 有 一 个 零 中 心 数 据 集 和 包含 m 个 样本 x;E 久 "。 我 们 的 目标 是 找到 一 组 潜在 变 
量 ,ziE 加 ?” (p<n) 和 和 矩阵 4〈 称 为 因子 加 载 矩阵 )， 以 便 可 以 重 写 每 个 样本 ， 如 下 所 示 : 
T=Az+NAwherez ~ N(0,1)and A~N(0,C,) withC,=diag(o? oo7) 


因此 , 我们 现在 假设 样本 x; 是 一 组 高 斯 潜在 变量 加 上 一 个 额外 的 异 方差 曲 声 项 的 组 合 。 
由 于 潜在 变量 具有 较 低 的 维度 ， 因 此 问题 与 标准 PCA 非常 相似 , 主要 区 别 在 于 现在 我 们 考 
上 不了 异 方差 噪声 (当然, n 也 可 以 为 null 或 同方 差 );。 因 此 ， 当 确定 分 量 ( 即 潜在 变量 ) 时 
模型 中 包含 了 不 同 噪声 方差 的 影响 ， 最 终 产生 了 部 分 滤波 〈 降 噪 ) 的 效果 。 在 上 述 提 到 的 
论文 中 ， 作 者 提出 了 一 种 优化 算法 ， 该 算法 不 是 非常 复杂 ， 但 需要 许多 数学 证 明 〈 因 此 ， 
我 们 省 略 了 证 明 过 程 )。 该 方法 基于 期 望 最 大 化 〈Expectation Maximization，EM) 算法 ， 
该 算法 有 助 于 找到 最 大 化 对 数 似 然 的 参数 集 。 在 本 书 中 ， 我 们 不 讨论 所 有 的 数学 细节 〈 可 
以 在 原始 论文 中 去 查找 )， 而 是 检查 这 种 方法 的 属性 ， 并 将 结果 与 标准 PCA 进行 比较 。 


让 我 们 首先 加 载 Olivetti 面部 数据 集 , 将 其 置 0, 然后 创建 异 方差 噪声 版 本 , 如 下 所 示 : 









































































































































import numpy as np 

from sklearn.datasets import fetch olivetti faces 

faces = fetch olivetti faces (shuffle=True, random state=1000) 
X= faces['data'] 

Xz = X - np.mean(X, axis=0) 

C= np.diag(np.random.uniform(0.0, 0.1, size=Xxz.shape[1])) 


Xnz = Xz + np.random.multivariate normal (np.zeros (Shape=Xz.shape[1])，C， 
size=Xz.shape[0]) 


一 些 原始 图 像 和 噪声 图 像 如 图 7-9 所 示 。 
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图 7-9 原始 图 像 (上)〉 和 噪声 图 像 (下 ) 
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现在 ， 让 我 们 评估 以 下 方法 的 平均 对 数 似 然 《 通 过 方法 score0， 可 在 PCA 和 FactorAnalysis 
类 中 获得 )。 

。 包含 原始 数据 集 和 128 个 分 量 的 PCA。 

。 包含 噪声 数据 集 和 128 个 分 量 的 PCA。 

。 包含 噪声 数据 集 和 128 个 分 量 〈 潜 在 变量 ) 的 因子 分 析 。 

在 下 面 的 代码 段 中 ，3 个 模型 都 被 实例 化 以 及 训练 : 























from sklearn.decomposition import PCA, FactorAnalysis 


bca = PCA(n components=128, random state=1000) 
Deaifit(xz) 
print('PCA log-likelihnood(Xz): {}'.format (pca.score (Xz))) 


bcan = PCA(n components=128, random state=1000) 
pcan.fit (XxXnz) 





print ('PCA log-likelihood (Xnz): {}'.format (pcan.score (Xnz))) 
fa = FactorAnalysis(n components=128, random state=1000) 
fa.fit (xnz) 


print('Factor Analysis log-likelihood (Xnz): 
{}"'.format (fa.score (Xnz))) 


代码 段 的 输出 如 下 : 





PCA log-likelihood(Xz): 4657.3828125 
PCA log-likelihood(Xnz): -2426.302304948351 
Factor Analysis log-likelihood(Xnz): 1459.2912218162423 











这 些 结果 表明 了 在 异 方差 噪声 的 情况 下 因子 分 析 的 有 效 性 。 PCA 实现 的 最 大 平均 对 数 似 
然 约 为 4657, 在 存在 噪声 的 情况 下 大 约 降 至 -2426。 相 反 ， 因 子 分 析 实 现 了 大 约 1459 的 平均 
对 数 似 然 , 这 远大 于 使 用 PCA 获得 的 平均 对 数 似 然 〈 即 使 噪声 的 影响 尚未 完全 滤 除 )。 因 此 ， 
每 当 数 据 集 包含 〈 或 数据 科学 家 怀疑 它 包 含 ) 异 方差 噪声 〈 例 如 样本 是 作为 不 同 仪器 捕获 的 
源 有 玛 加 而 获得 ) 时 ， 我 强烈 建议 将 因子 分 析 作 为 主要 的 降 维 方法 。 当 然 ， 如 果 要 求 其 他 条 件 
(例如 非 线 性 、 稀 玻 性 等 )， 则 可 以 在 做 出 最 终 决 定之 前 评估 本 章 中 讨论 的 其 他 方法 。 


7.2.5 稀 蚊 主 成 分 分 析 与 字典 学 习 


种 密集 的 分 解 。 也 就 是 说 ， 向 量 一 旦 被 变换 ， 就 会 成 为 所 有 上 其 有 非 






































































































































Pu 








标准 PCA 通常 




















零 系数 分 量 的 线性 组 合 : 

















T 
z= X= (Vt ix 








在 前 面 的 表达 式 中 ， 系 数 w 几乎 总 是 不 为 零 的 ， 因 ] 
我 们 对 每 个 分 量 的 解释 方差 更 感 兴趣 ， 以 便 限 制 它们 。 然 而 ， 











降 维 的 目的 ， 这 并 不 是 问题 ， 
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VX ) | 0 二 0 
此 所 有 分 量 都 参与 重建 过 程 。 出 于 

















































































































有 一 些 任务 有 助 于 分 析 更 大 的 构建 原子 ， 前 提 是 每 个 向 量 都 可 以 表示 为 它们 的 稀 朴 组 合 。 
最 经 典 的 示例 是 文本 语料库 ， 其 中 字典 包含 的 术语 多 于 每 个 文档 中 涉及 的 术语 。 这 些 类 型 
的 模型 通常 被 称 为 字典 学 习 算法 ， 因 为 原子 集 定义 了 一 种 字典 ， 包 含 可 用 于 创建 新 样本 的 
所 有 单词 。 当 原子 的 数量 大 于 样本 的 维 数 n 



































并 且 表 示 形 式 通 常 是 稀 跑 的 。 相反 , 当 k<n 


且 向 量 需 要 更 密集 。 




















时 ,字典 被 称 为 “ 超 完 备 ”(Over-complete)， 
秆 ， 字 典 被 称 为 “不 完备 ”(Under-complete)， 





这 种 学 习 问 题 可 以 通过 最 小 化 函数 ， 对 解 Lj 范 数 施 加 惩罚 来 轻松 解决 。 这 种 约束 导致 
稀疏 性 的 原因 超出 了 本 书 的 范围 ， 但 是 感 兴趣 的 读者 可 以 在 Mastering Machine Learning 

















Algorithms 中 找到 更 多 的 论述 。 



































字典 学 习 ( 以 及 稀 下 PCA) 的 问题 可 以 用 以 下 式 子 表达 : 
ee 
vl=1 

这 是 算法 的 一 个 特殊 情况 ， 其 中 分 量 




















normalize components=False )， 














让 我 们 考虑 MNIST 数据 集 ， 它 使 
度 级 别 ( 例 如 a = 2.0) 执行 稀 疏 
例 中 显示 : 






































Ui 被 强制 具有 单位 长 度 〈 除 非 存在 参数 











并 且 系数 亚 受 到 惩罚 ， 以 便 增 加 











稀疏 性 (与 系数 a 成 比例 )。 











] 30 个 分 量 〈 生 成 一 个 
PCA。 数 组 和 应 该 包含 规范 化 的 样本 ， 并 在 以 下 PCA 示 











from sklearn.decomposition import SparsePCA 


不 完整 的 字典 ) 和 中 高 稀 玻 








spca = SparsePCA(n components=30, alpha=2.0, normalize components=True, 


random state=1000) 
spca.fit(x) 


在 训练 过 程 结束 时 ， 数 组 components 包 
不 难 理解 每 个 数字 都 可 以 
例如 让 我 们 考虑 一 下 数字 X[0] 的 转换 : 












































y = spca.transform(X[0] .reshape (1， 


含 原子 ， 如 图 








-1)) .sdueeze () 


7-10 所 示 。 
这 些 原 子 组 成 。 然 而 ， 考 虑 到 原子 数 ， 稀 玻 度 不 能 非常 大 。 
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分 析 


系数 的 绝对 值 如 图 


Coefficient (absolute values) 
po 9 





S、8 等 ) 和 一 些 空 值 或 可 久 
长 度 (30 个 分 量 ) 增加 ， 

















7-11 所 示 。 


2 14 1 

















图 7-10 稀疏 PCA 算法 提取 的 分 量 








2 5 下 27 六 29 30 
Component 


图 7-11 区 0] 的 稀 玻 转换 的 系数 的 绝对 值 





显然 有 一 些 主 成 分 (例如 2、7、13、17、21、24、26、27 和 30)， 一 些 次 成 分 〈 例 如 
各 的 成 分 (例如 1、3、6 等 )。 如 果 稀 疏 度 级 别 以 相同 的 代码 
则 对 应 空 成 分 的 系数 将 降 至 零 ， 而 如 果 代 码 长 度 也 增加 (例如 = 











100)， 字 上 典 将 变 得 超 完备 ， 空 系数 的 数量 也 会 增加 。 
7.2.6” 非 负 钴 阵 分 解 


当 数 据 集 是非 负数 时 ， 我 们 可 以 应 用 一 种 分 解 技 术 〔 例 如 在 Learning the parts of 
objects by non-negative matrix factorization 中 ), 当 任 务 的 目标 是 提取 对 应 于 样本 的 结构 部 分 








的 原子 时 ， 事 实证 明 该 








技术 更 为 可 靠 。 








例如 在 图 像 的 情况 下 ， 它 们 应 该 是 几何 元 素 ， 甚 至 




















是 更 复杂 的 部 分 。 非 负 和 矩 阵 分 解 强加 的 主要 条 件 是 涉及 的 所 有 久 


UV。 因 此 ， 





由 于 在 需 
有 更 大 的 灵活 











性 )， 因 




















要 稀疏 性 时 这 
此 ， 我 人 











minyy |X 宇 | ， 





E 阵 必须 是 
一 旦 定义 了 一 个 范 数 W (例如 Frobenius 范 数 )， 简 单 的 目 

















通常 是 不 可 接受 的 (3 
























































ElasticNet 中 ) 添加 惩罚 来 描 





述 问题 (例如 在 scikit-learn 中 ): 














in x Uv), + opdU 


双重 正则 化 允许 你 通过 避免 类 似 于 








和 


rv) ad -PV 














有 旦 ,为 了 在 更 改 解 以 满足 特定 要 求 时 具 
] 通 常 通过 对 Frobenius (ZL 的 矩阵 扩展 ) 和 万 范 数 〈 例 如 在 


六 
Frob 本 IF 





监督 模型 过 度 拟 合 的 效果 








的 稀 朴 度 和 更 好 





的 匹配 (1 





于 解 是 次 优 的 ， 
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是 非 负 的 并 且 对 = 
标 就 变 成 如 下 : 


























2 


， 来 获得 分 量 和 样本 之 间 











它 在 适应 从 相同 数据 生成 过 程 中 抽取 的 新 样本 








时 也 更 灵活 


0.1 scikit-learn 中 称 为 11_ ratio)。 此 配 


化 。 








因此 这 
现在 ， 让 我 人 





文 增加 了 通常 可 实现 的 可 
] 考 虑 一 下 MNIST 数据 集 ， 















































这 个 过 程 很 简单 ， 类 似 于 稀疏 的 PCA: 





from sklearn.decomposition import NMF 


nmf = NMF (n components=50, alpha=2.0, 
nmf .fit (xX) 











结束 时 ， 


名 


(原子 ) 如 攻 





在 训练 过 程 








里 

















将 其 分 解 为 50 个 原子 , 最 初 设置 a= 2.0 和 p= 





中 等 稀疏 度 和 较 强 的 L2 / Frobenius 正则 





11 ratio=0.1, random state=1000) 


7-12 所 示 。 














图 7-12 





NNMF 算法 提取 的 原子 
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与 我 们 在 标准 字典 学 习 中 所 观察 到 的 相反 ， 原 子 现在 更 加 结构 化 ， 并 且 它 们 会 再 现 数 
字 的 特定 部 分 〈 例 如 垂直 或 水 平 的 边 、 圆 形 、 点 等 )。 因 此 ,我 们 可 以 期 待 更 多 的 稀 疏 表示 ， 
因为 更 少 的 分 量 足以 生成 一 个 数字 。 考 虑 到 7.2.5 节 (数字 0]) 中 的 示例 ， 所 有 分 量 的 绝 
对 系数 如 图 7-13 所 示 。 
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Cemponent 


Coefficient (absolute values) 











图 7-13 ”XT0] 的 NNMEF 的 绝对 系数 


3 个 主 成 分 是 (3、24 和 4$)。 因 此 ， 我 们 可 以 尝试 将 样本 表达 为 它们 的 组 合 。 系 数 分 
别 为 0.19、0.18 和 0.16， 如 图 7-14 所 示 (数字 X[0] 表 示 为 零 )。 


[本 加 四 和 i 


图 7-14 基于 3 个 主 成 分 来 解构 数字 XI0] 






































值得 注意 的 是 算法 是 如 何 选择 原子 的 。 即 使 这 个 过 程 受到 参数 c 和 Bp 以 及 范 数 的 影响 ， 
我 们 也 可 以 观察 到 ， 例 如 第 3 个 原子 (图 中 的 第 一 个 ) 可 以 由 具有 0、3 和 8 的 数字 共享 ; 
最 后 一 个 原子 可 以 组 成 数字 0、9。 当 原子 的 粒度 太 粗 糙 时 ， 具 有 较 弱 万 惩罚 的 超 完备 字 ?4 
可 能 是 有 用 的 。 当 然 ， 每 个 问题 都 需要 特定 的 解决 方案 。 因 此 ， 我 强烈 建议 与 该 领域 专家 
一 起 检查 原子 的 结构 。 作 为 练习 ， 我 建议 你 将 NNMF 应 用 于 另 一 个 小 图 像 数据 集 〈 例 如 
Olivetti、Cifar10 或 STL-10)， 并 尝试 找到 隔离 固定 数量 结构 部 件 所 需 的 正确 参数 (例如 对 
面部 而 言 ， 它 们 可 以 是 眼睛 、 鼻 子 和 嘴巴 等 )。 
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使 用 标准 PCA 《或 其 他 技术 ， 如 因子 分 析 ) 时， 分 量 是 不 相关 的 ， 但 不 能 保证 它们 在 























统计 上 是 独立 的 。 换 句 话说 ， 假 设 我 们 有 一 个 数据 集 X， 它 是 从 联合 概率 分 布 PCO 中 得 出 





























的 。 如 果 有 个 分 量 ， 我 们 不 能 总 是 确保 以 下 等 式 成 立 : 


Po) = P(X) P(X) "p(X,) 




















然而 ， 有 许多 重要 的 任务 基于 一 个 称 为 鸡尾酒 会 《Cocktail Party) 的 常见 模型 。 在 这 种 


















































情况 下 ， 我 们 可 以 假设 (或 者 我 们 知道 ) 许多 不 同 的 独立 源 《〈 例 如 声音 和 音乐 ) 重 登 并 生成 





单个 信号 。 此 时 ， 我 们 的 目标 是 尝试 通过 对 每 个 样本 应 用 线性 变换 来 分 离 源 。 让 我 们 考虑 一 
个 白化 数据 集 X( 所 有 分 量 都 具有 相同 的 信息 内 容 ), 我 们 可 以 假设 从 高 斯 分 布 M0, DD) 中 采样 
(这 不 是 一 个 限制 条 件 ， 因 为 许多 不 同 的 源 很 容易 重合 并 收敛 到 正 态 分 布 )。 




































































表示 如 下 : 
T=AVNeXH p00)=0) ex 
天 





换 句 话说 ， 我 们 将 每 个 样本 表示 为 许多 独立 因子 的 乘积 ， 六 
分 布 。 必 须 绝 对 强制 执行 的 唯一 条 件 是 非 高 斯 性 (否则 ,分 量 将 




















具有 基于 














因此 ， 目 标 可 以 








指数 函数 的 先 验 




















数 友 了 3) 不 能 是 二 次 多 项 式 。 在 实践 中 ， 我 们 还 希望 包括 中 等 稀 疏 度 ， 因 此 




















重 尾 分 布 〈 即 概率 仅 在 非常 短 的 范围 内 高 ， 然 后 突然 下 降 到 几乎 
检查 标准 化 的 第 4 次 和 矩阵 来 验证 ， 也 称 为 峰 度 〈Kurtosis ): 


Kurtosis(X )= a 
OO. 









































变 得 无 法 区 分 )。 因 此 ， 函 





我 们 期 望 峰 值 和 
情况 可 以 通过 

















对 于 高 斯 分 布 ， 峰 度 为 3。 由 于 这 通常 是 参考 值 ， 所 以 Kurtosis(X) > 3 的 所 有 分 布 都 称 



































为 超 高 斯 或 leptokurtic， 而 具有 Kurtosis(X) < 3 的 分 布 称 为 亚 高 斯 或 platykurtic。 前 一 类 























分 布 的 一 个 例子 是 拉 普 拉 斯 (Laplace) 的 一 种 ， 如 图 7-15 所 示 。 























不 幸 的 是 ， 对 异常 值 而 言 ， 由 于 其 缺乏 鲁 棒 性 ， 所 以 我 们 不 


















































鼓励 使 用 峰 度 〈 也 就 是 说 ， 


尾部 有 异常 值 的 





因为 它 涉及 4 次 究 ， 即 使 很 小 的 值 也 可 以 被 放大 并 且 改 变 最 终结 果 。 例 如 





噪声 高 斯 可 以 显示 为 超 高 斯 )。 为 此 , Hyvarinen 和 Oja (在 Independent Component Analysis: 





Algorithms and Applications 中 ) 提 出 了 一 种 基于 negentropy 概念 
Independent Component Analysis，FastICA ) 的 算法 。 我 们 不 打 






































的 快速 独立 分 量 分 析 (Fast 








在 本 书 





FP 描述 整个 模型 。 















































但 是 理解 基本 思想 会 有 所 帮助 。 可 以 证 明 ， 在 具有 相同 方差 的 所 有 分 布 之 间 ， 高 斯 具有 最 
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大 的 业 。 因 此 ， 如 果 已 经 从 具有 协 方差 己 的 分 布 中 得 出 数据 集 式 〈 零 中 心 )， 则 可 以 将 蕊 的 























负 粒 定义 为 高 斯 V (0, 区 ) 的 炳 与 炳 之 间 的 差 : 
Hy(X)=H(N(0,5))-H(X) 





Gaussian (Kurtosis = 3) 


005 Ns 人 
> 


(= SE 而 | 


6 4 2 0 2 4 6 6 4 


Laplace (Kurtosis = 6) 
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3 
































图 7-15 高 斯 分 布 《 左 ) 和 拉 普 拉 斯 分 布 《 右 ) 的 概率 密度 函数 

















因此 ， 我 们 的 目标 是 通过 减少 HOV) 来 减少 HNX) 〈 总 是 大 了 
基于 特定 函数 组 合 的 如 CO 近似 值 。 最 常见 的 称 为 logcosh (也 是 scikit-learn 中 的 默认 值 )， 


























如 下 所 示 : 


f(x)= a 
a 





或 等 于 零 )。FastICA 算法 


通过 这 种 技巧 ， 我 们 可 以 更 容易 地 优化 负 炉 ， 并 且 最 终 的 分 解 肯定 包含 独立 分 量 。 现 














和 tol=1e-5): 


from sklearn.decomposition import FastICA 








在 , 让 我 们 将 FastICA 算法 应 用 于 MNIST 数据 集 ( 为 了 提高 精度 , 我 们 设置 max_iter=10000 





ica = FastICA(n components=50, max iter=10000, tol=1le-5, random state=1000) 


ica.fit (x) 

















FastICA 算法 提取 的 50 个 独立 分 量 ( 始 终 通过 components_ 实例 变量 获得 )， 如 图 7-16 











所 示 。 





在 这 种 情况 下 ， 分 量 可 以 立即 识别 为 数字 的 一 部 分 《我 建议 大 家 通过 减少 或 增加 分 量 
的 数量 到 最 多 64 个 ， 来 重复 该 示例 ， 这 是 考虑 到 数据 集 的 维度 的 最 大 数量 )。 分 量 倾向 于 
































达到 相应 分 布 的 平均 位 置 。 因 此 , 使 用 较 小 的 数字 , 我 们 就 可 以 区 分 更 多 的 结构 化 模式 (可 
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以 被 认为 是 不 同 的 重 有 信号), 而 使 用 大 量 分 量 会 导致 更 多 以 特征 为 中 心 的 元 素 。 然 而 , 与 
NNMEF 相反 ，FastICA 不 保证 提取 样本 的 实际 部 分 ， 而 是 提取 更 完整 的 区 域 。 换 句 话 说 ， 
虽然 NNMEF 可 以 很 容易 地 检测 到 例如 某 些 单个 边 ,但 FastICA 倾向 于 将 样本 视 为 不 同 信和 号 
的 总 和 ， 在 图 像 显 示 的 情况 下 ， 除 非 分 量 的 数量 急剧 增加 ， 否 则 这 些 信 号 通常 涉及 样本 的 
整个 维度 。 为 了 更 好 地 理解 这 个 概念 ， 让 我 们 考虑 一 下 Olivetti 面部 数据 集 ， 其 中 包含 400 
个 64 像素 x64 像素 的 灰 度 肖像 : 


















































from sklearn.datasets import fetch olivetti faces 
faces = fetch olivetti faces (shuffle=True, random state=1000) 


二 | 
图 攻 癌 和 前半 国 交 国 岗 司 
| | 1 了 > 
国 国 阅 国 赠 了 网关 明 国 梳 
嚼 虚 图 加 贸 柄 国药 出 ， 


图 7-16 FastICA 算法 提取 的 50 个 独立 分 量 


前 10 个 面部 样本 如 图 7-17 所 示 。 


四 加 加 国 丽 莒 转圈 国 


图 7-17 从 Olivetti 面部 数据 集中 提取 的 面部 样本 (前 10 个 ) 
现在 ， 让 我 们 提取 100 个 独立 分 量 : 












































ica = FastICA(n components=100, max iter=10000, tol=1le-5, 
random state=1000) 
ica.fit (faces['data']) 
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前 50 个 独立 分 量 ， 如 图 7-18 所 示 。 
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图 7-18 FastICA 提取 的 前 50 个 〈 共 




















正如 你 所 看 到 的 ， 每 个 分 量 类 似 于 元 脸 〈 有 时 称 为 特征 脸 )， 由 于 所 有 剩余 的 分 量 〈 即 











使 无 法 在 精确 的 样本 集中 立即 识别 出 它们 ) 都 具有 
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加 二 x 是 


100 个 ) 独立 分 量 











些 特 定 的 显 性 特征 以 及 次 要 贡献 ， 因 











此 ， 当 分 量 数量 增加 到 350 时 ， 效 果 变 得 更 加 明显 ， 如 图 7-19 所 示 。 
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图 7-19 FastICA 提取 的 前 50 个 〈 共 
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在 这 种 情况 下 ， 次 要 特征 不 那么 占 优 势 ， 因 为 分 布 重 合 较 多 ， 并 且 它 们 中 的 每 一 个 都 
以 原子 特征 脸 为 中 心 。 当 然 ， 如 果 没 有 完整 的 领域 知识 ， 就 无 法 定义 最 佳 分 量 数 。 例 如 在 
Olivetti 面部 数据 集中 ， 识 别 特定 子 元 素 〈 例 如 眼镜 的 位 置 ) 或 更 完整 的 面部 表情 可 能 是 有 
帮助 的 。 在 前 一 种 情况 下 ， 更 多 的 分 量 产生 更 集中 的 解 〈《 即 使 它们 在 全 局 上 不 易 区 分 )， 而 
在 后 一 种 情况 下 ， 较 小 的 分 量 〈 例 如 在 前 面 的 示例 中 ) 产生 更 完整 的 结 ， 从 而 可 以 评估 不 
同 的 影响 因素 。 就 信号 方面 , 分 量 的 数量 应 该 等 于 预期 的 重 且 因子 数 (假设 它们 是 独立 的 )。 
例如 一 个 音频 信号 可 以 包含 一 个 人 在 机 场 交 谈 的 录音 ， 以 及 宣布 航班 信息 的 背景 声音 。 在 
这 种 情况 下 ， 场 景 可 以 由 3 个 分 量 组 成 : 两 个 声音 和 一 个 噪声 。 由 于 噪声 将 部 分 地 分 解 为 
主 成 分 ， 因 此 最 终 数 量 将 等 于 2。 
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我 们 现在 将 考虑 另 一 种 在 处 理 文档 时 非常 有 用 的 分 解 〈 即 NLP)。 理 论 部 分 不 是 很 容 
易 理 解 ， 因 为 它 需要 深入 了 解 概 率 论 和 统计 学 〈 可 以 在 论文 Latent Dirichlet 4llocation 中 找 
到 )。 因 此 , 我 们 只 讨论 主要 元 素 , 且 没 有 任何 数学 参考 (Machine Learning Algorithms, Second 
Edition 中 也 有 更 简洁 的 描述 )。 让 我 们 考虑 一 组 文档 四， 也 称 为 语料库 〈Corpus)， 其 原子 
(或 分 量 ) 是 单词 Wi: 

dj; = (ws Was"", Win) and Corpus = (di,d,,"*,d,) 
收集 完 所 有 单词 后 ， 我 们 可 以 构建 一 个 字典 ; 
Dictionary = 人 
我 们 还 可 以 表示 以 下 不 等 式 CM 9 计算 集 的 元 素数 ): 
N(d;) < N(Dictionary)Vi e Corpus 

这 意味 着 文档 之 间 的 单词 分 布 是 稀疏 的 ， 因 为 在 单个 文档 中 只 使 用 了 几 个 单词 。 而 前 
者 的 选择 是 对 称 Dirichlet 分 布 〈 模 型 以 它 命名 )， 它 非常 稀疏 〈 此 外 ， 它 是 分 类 分 布 的 共 斩 
先 验 ， 这 是 一 阶 多 项 式 ， 因 此 很 容易 纳入 模型 )。 概 率 密度 函数 〈 因 为 分 布 是 对 称 的 ， 参 数 
o=xwVi) 如 下 : 































































































































































































p(x,0)= i [lx = ee Il 2XC (for the symmetry) 





现在 ， 让 我 们 考虑 将 文档 的 语义 分 组 到 主题 x， 并 假设 每 个 主题 都 以 少量 特殊 词 表 征 : 


ti = (Was Ws, Wi) and Topics = (t,t,,"*,t,) 
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这 意味 着 主题 之 间 的 单词 分 布 也 很 稀疏 。 因 此 ， 我 们 有 完整 的 联合 概率 《单词 ， 主 题 ) 
并 且 我 们 想 要 确定 条 件 概率 PCOw| 妇 和 p(ti|wi)。 换 句 话说 ， 给 定 一 个 文档 ， 该 文档 是 术语 的 
集合 (每 个 术语 都 有 一 个 边际 概率 p(wi))， 我 们 想 要 计算 这 样 一 个 文档 属于 特定 主题 的 概 
率 。 由 于 文档 被 温和 地 分 配给 所 有 主题 〈 也 就 是 说 ， 它 可 以 在 不 同 程度 上 属于 一 个 以 上 的 
主题 )， 因 此 我 们 需要 考虑 一 个 稀 玻 的 主题 文档 分 布 ， 从 中 得 出 主题 混合 〈0): 
0 ~ Dir(a) 
以 类 似 的 方式 ， 我 们 需要 考虑 主题 词 分 布 ( 因 为 一 个 
共享 )， 我 们 可 以 从 中 得 出 主题 词 混合 样本 p: 
pb;~ Dir(y) 


潜在 Dirichlet 分 配 (Latent Dirichlet Allocation，LDA) 是 一 种 生成 模型 (训练 目标 以 
简单 的 方式 找到 最 佳 参数 a 和 y)， 能 够 从 语料库 中 提取 固定 数量 的 主题 并 用 一 组 话 来 表述 
它们 。 给 定 一 个 示例 文档 ， 它 能 够 通过 提供 主题 混合 概率 向 量 (0; = (p(n), p(t2), …, p(t)) 
将 其 分 配给 一 个 主题 。 它 还 可 以 处 理 未 知 的 文档 (使 用 相同 的 字典 )。 

现在 , 让 我 们 将 LDA 应 用 于 20 个 新 闻 组 数据 集 的 子 集 ， 其 中 包含 为 NLP 研究 公开 发 
布 的 数 千 条 消息 。 特 别 地 ， 我 们 想 要 对 rec.autos 和 comp.sys.mac.hardware 子 组 建 模 。 我 们 
可 以 使 用 scikit-learn 内 置 的 函数 fetch 20newsgroupsO0， 要 求 删除 所 有 不 必要 的 标题 、 页 脚 
和 引用 《附加 答案 的 其 他 帖子 ); 















































































































































单词 可 以 由 不 同 程度 的 更 多 3 


上 
沼 





























































































































from sklearn.datasets import fetch 20newsgroups 


news = fetch 20newsgroups (subset="'all', categories=('rec.autos', 





'comp.sys.mac.hardware'), remove=('headers', 'footers', "Gdquotes ')， 
random state=1000) 


corpus = news['data'] 
labels = news['target' 














此 时 ， 我 们 需要 对 语料库 进行 向 量化 。 换 句 话 说， 我 们 需要 将 每 个 文档 转换 为 包含 词 
汇 表 中 每 个 单词 的 频率 〈 计 数 ) 的 稀 玻 向 量 : 
0 = {Wis Ws, Ww,} > f (dq)) = {Nn(W),n(W,), ON 
我 们 将 使 用 CountVectorizer 类 执行 此 步骤 ， 要 求 去 除 方言 并 删除 具有 非常 高 的 相对 频 
率 但 不 具有 代表 性 的 停 用 词 ( 例 如 英语 中 的 “和 ”“ 等 等 ”)。 此 外 ， 我 们 强制 标记 器 排除 所 
有 非 纯 文本 的 标记 (通过 设置 token_pattern='[a-z]+')。 在 其 他 情况 下 可 能 不 同 , 但 在 这 种 情 
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况 下 ， 我 们 不 想 依 赖 数 字 和 符号 ; 





from sklearn.feature extraction.text import CountVectorizer 
cV = CountVectorizer(strip accents='unicode', stop words='english', 
analyzer='word', token pattern="'[a-z]+"') 


Xc = cv.fit transform(corpus) 


print (len(cv.vocabulary )) 





代码 段 的 输出 如 下 : 


14182 





将 


因此 ， 每 个 文档 都 是 14182 维 的 稀 玖 癌 量 (显然 大 多 数值 都 为 空 )。 我 们 现在 可 以 通 
n_components=2 来 执行 LDA， 因 为 我 们 希望 提取 两 个 主题 : 




















from sklearn.decomposition import LatentDirichletAllocation 


lda = LatentDirichletAllocation(n components=2, learning method='online', 
max_iter=100, random state=1000) 
Xl1 = lda.fit transform(xc) 


在 训练 过 程 之 后 ，components_ 实 例 变 量 包 含 每 对 (单词 和 主题 的 相对 频率 (以 计数 
为 单位 )。 因 此 ， 在 我 们 的 例子 中 ， 它 的 形状 是 (2,14,182)， 为 了 定义 主题 i，components [i, 
j] 元 素 (其 中 i Ee (0,1) 和 jE (0,14, 181)) 可 以 解释 成 单词 7 的 重要 性 。 因 此 ， 我 们 有 兴趣 
检查 两 个 主题 的 前 10 个 单词 : 















































import numpy as np 


Mwts lda = np.argsort (lda.components , axis=1)[::-1] 


for t in range (2): 
print("\nTopie + str(t)) 
for i in range(10): 
print (cv.get feature names () [Mwts ldalt, i]]) 








价 出 如 下 : 


Topic 0 
compresion 


progress 
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deliberate 
dependency 
preemptive 
WV 

nmsu 

bpp 
Coexist 


logically 


TOBLS I 
argues 
compromising 
overtorque 
moly 

forbid 
cautioned 
sauber 
explosion 
eventual 


agressive 



































我 们 很 容易 〈 考 虑 一 些 非常 特殊 的 术语 ) 理解 Topic 0 已 经 分 配给 了 comp.sys.mac. 
hardware，Topic 1 已 分 配给 rec.autos (不幸 的 是 ， 这 个 过 程 不 能 基于 自动 检测 ， 因 为 语义 
必须 由 人 解释 )。 为 了 评估 模型 ， 我 们 考虑 两 个 示例 消息 ， 如 下 所 示 : 


























print (corpus[100]) 





print (corpus[200]) 


输出 〈 仅 限于 几 行 ) 如 下 : 


| 


I'm trying to find some information on accelerator boards for the SE. Has 





anyone used any in the past, especially those from Extreme Systems, Novy or 
MacProducts? I'm looking for a board that will support extended video, 





especially Radius's two-page monitor. Has anyone used Connectix Virtual in 
conjunction with their board? Any software snafus? Are there any stats 








anywhere on the speed difference between a board with an FPU and one 
without? Please send mail directly to me. Thanks. 


The new Cruisers DO NOT have independent suspension in the front. They 
still 
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run a Straight axle but with coils. The 4Runner is the one witnh 
independent 





front. The Cruisers have incredipble wheel travel with this system. 





The 91-up Cruiser does have full time 4WD, but the center diff locks in 
low range. My brother has a 91 and is an incredipbly sturdy Vehicle which 
has done all the 4+ trails in Moab without a tow. The 93 and later is even 
better with the bigger engine and locking diffs. 




















. 





因此 ， 第 一 篇 帖子 显然 是 与 图 形 有 关 的 消息 ， 而 第 二 篇 帖子 则 是 一 条 新 闻 。 让 我 们 为 
它们 计算 主题 混合 ， 如 下 所 示 : 

















从 于 二 站 七 区 区 二 [于 DO0] 
print (Xl1[200]) 





输出 如 下 : 


[0.98512538 0.01487462] 
[0.01528335 0.98471665] 








因此 , 第 一 条 消息 具有 约 98% 的 概率 属于 Topic 0, 而 第 二 条 消息 几乎 不 可 能 分 配给 Topic 1。 
这 确认 分 解 工作 正常 。 为 了 更 好 地 了 解 整体 分 布 ， 可 视 化 属于 每 个 类 别 的 消息 的 混合 将 很 
有 帮助 ， 如 图 7-20 所 示 。 








ll 





comp.sys.mac.hardware rec.autos 


00 02 04 06 08 10 00 02 04 


Topic0 


06 08 10 


Topic0 





图 7-20 ”comp.sys.mac.hardware( 左 ) 和 rec.autos( 右 ) 的 主题 混合 











如 你 所 见 , 主题 几乎 是 正 交 的 。 属 于 rec.autos 的 大 多 数 消息 的 p(to) < 0.5 以 及 p(t1) > 0.5; 
而 comp.sys.mac.hardware 上 略 有 重 关 ,其 中 不 具有 p(1o) > 0.5 和 p(n1) < 0.5 的 消息 略 多 。 
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能 是 由 于 存在 可 以 使 两 个 主题 具有 相同 重要 


两 个 


7.5 
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ZN 


右 











了 对 | 
选择 














的 单词 〈 例 如 discussion 或 debate 的 术语 在 








新 闻 组 中 可 能 同样 存在 )。 作为 练习 , 我 建议 你 使 用 更 多 子 集 , 尝试 证 明 主题 的 正 交 性 ， 
并 检测 可 能 导致 错误 分 配 的 单词 。 





站 4 二 


/OA 一 口 











在 本 章 中 ， 我 们 介绍 了 可 用 于 降 维和 字 








(a 






































办 方差 矩阵 进行 对 角 人 





， 并 提供 对 


每 个 特征 


法 ， 它 涉及 查找 分 量 ， 该 分 量 是 与 方差 较 大 的 方向 相关 联 的 数据 集 最 重要 的 分 
重要 性 即时 测量 的 双重 效果 ， 从 而 简化 






































训 用 最 大 化 残 差 来 解释 方差 (可 











一 种 
基于 
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瑟 / 
系 Z 


性 组 
的 超 
黎 踊 
这 个 


它 既 


j 较 














线 | 
内 核 的 变 体 。 在 我 们 的 示例 中 ， 





尔 了 




















子 空间 ，PCA 可 以 在 子 空 间 中 确定 

















少 分 量 





个 判别 分 量 。 








空 
稀 跑 PCA 和 字典 学 习 是 广泛 使 
合 ) 以 生成 样本 时 ， 可 以 使 
完备 的 字典 ， 这 相当 于 说 我 们 
的 原因 )。PCA 可 以 提取 不 相 
原 









































可 以 生成 稀 琉 表示 ， 也 可 











它们 
以 在 














可 以 表示 眼睛 、 外 了 等 )。 











的 技术 ， 当 我 
j 这 些 技术 。 在 








许多 情 








学 习 的 不 同 技术 。PCA 是 一 种 非 


来 解释 的 方差 
生 方 法， 因此 通常 不 能 与 非 线性 数据 集 一 起 使 用 。 出 于 这 个 原因 


解 了 基于 RBF 内 核 如 何 将 非 线性 可 分 离 数据 集 投 
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著名 的 方 
该 方法 





瑟 ! 


里 。 
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日 )。 时 


由 于 PCA 本 质 上 是 
， 我 们 已 经 开发 了 
































门 需要 提取 可 以 混合 的 构建 原子 〈 以 线 
况 下 ， 我 们 的 目标 是 找到 一 个 所 谓 








期 望 比 实际 需要 更 多 的 原 














子 构 建 每 个 样本 (这 就 是 表示 
关 的 分 量 ， 且 很 少 找 不 到 统计 意义 上 独立 的 分 量 。 出 于 
内， 我 们 引入 了 FastICA 的 概念 ， 该 技术 是 为 了 从 样本 中 提取 重 益 源 而 开发 的 ， 可 
以 将 其 视 为 独立 原因 的 总 和 (例如 声音 或 视觉 











元 素 )。 男 一 种 具有 特殊 表征 的 方法 是 NNMF， 


以 生成 一 组 类 似 于 样本 特定 部 分 的 分 量 ( 例 如 对 面部 而 言 ， 


7.4 节 介 绍 了 LDA 的 概念 ，LDA 





给 定 文档 语料库 〔( 即 文档 
在 第 8 章 中 ， 我 们 将 介 





属于 每 个 特定 3 












































7.6 
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问题 








| 

















2. 考虑 到 问题 1， 如果 了 是 以 0 为 


























第 一 主 成 分 ) 允许 水 平 判别 吗 ? 
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电 心 








3. PCA 提取 的 分 量 在 统计 上 是 独立 














的 。 














EE 
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' 主 题 建 模 技 术 ， 可 





FE 题 的 概率 〉 的 情况 下 查找 主题 混合 。 
绍 一 些 基 于 无 监督 范式 的 神经 模型 。 将 特别 讨 
自动 编码 器 和 在 没有 协 方差 矩阵 


论 深度 置信 网 络 、 


























的 特征 分 解 〈 不 是 SVD) 的 情况 下 提取 数据 集 的 主 成 分 模型 。 





数据 集 蕊 具有 协 方差 矩阵 C=diag(2,1)。 你 对 PCA 有 什么 期 望 ? 


球 Bos(0, 0) 为 空 ， 我 们 可 以 假设 x = 0 的 羡 


E 确 吗 ? 





了 
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4. Kurt(X)=5 的 分 布 适用 于 ICA。 正 确 吗 ? 
5. 包含 样本 (1,2) 和 0,-3) 的 数据 集 了 的 NNMEF 是 多 少 ? 
6. 10 个 文档 的 语料库 与 10 个 术语 的 字典 相关 联 。 我 们 知道 每 个 文档 的 固定 长 度 是 30 
个 字 。 该 字典 是 否 超 完备 ? 


7. 基于 内 核 的 PCA 与 二 次 内 核 一 起 使 用 。 如 果 原 始 维度 为 2， 那 么 执行 PCA 的 新 空 
间 维 度 是 多 少 ? 
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在 本 章 中 ， 我 们 将 讨论 一 些 可 用 于 无 监督 任务 的 神经 模型 。 选 择 神经 网 络 (通常 是 深 
层 网 络 ) 可 以 解决 高 维 数据 集 的 复杂 性 ， 这 些 数据 集 的 某 些 特 性 需要 复杂 的 处 理 单元 〈 例 
如 图 像 )。 

本 章 将 着 重 讨论 以 下 主题 。 


















































自 编 码 器 。 

去 噪 自 编码 器 。 
稀 玻 自 编码 器 。 
变 分 自 编码 器 。 
PCA 神经 网 络 。 


Sanger 网 络 。 




















Rubner-Tavan 网 络 。 


款 


无 监督 的 深度 置信 网 络 (Deep Belief Networks，DBN )。 


技术 要 求 





本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+《〈 强 烈 推荐 Anaconda 发 行 版 )。 





库 。 





m SciPy 0.19+。 

@ NumPy 1.10+。 

m scikit-learn 0.20+。 
m pandas 0.22+。 

m Matplotlib 2.0+。 

m seaborn 0.9+。 


m ‘TensorFlow 1.S+。 


m 无 监督 的 深度 信念 网 络 (Deep Belief Network，DBN )。 




















示例 代码 可 在 本 书 配套 的 代码 包 中 找到 。 


8.2” 自 编码 器 
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在 第 7 章 中 ， 我 们 讨论 了 一 些 可 以 减少 数据 集 维度 的 常用 方法 ， 并 且 这 些 方 法 具有 独 
特 的 统计 属性 〈 例 如 协 方差 矩阵 )。 但 当 复 杂 度 增加 时 ， 即 使 是 基于 内 核 的 主 成 分 分 析 也 可 
能 无 法 找到 合适 的 低 维 表示 。 换 句 话 说 ， 信 息 的 丢失 可 以 克服 一 个 闵 值 ， 该 闵 值 确保 有 效 


























地 重建 样本 的 可 能 性 。 而 自 编码 器 则 是 利用 神经 网 络 的 极端 非 线 性 
表示 的 模型 。 特 别 地 ， 假 设 式 是 从 数据 生成 过 程 pueGC9O 中 提取 的 一 组 样本 。 为 简单 起 见 ， 
































来 找到 给 定数 据 集 低 维 








我 们 将 考虑 xie 多"， 但 对 支撑 的 结构 没有 任何 限制 〈 例 如 对 于 RGB 图 像 ，xiE ””)。 
自 编码 器 的 结构 分 为 两 个 部 分 : 编码 器 将 高 维 输入 转换 为 更 短 的 代码 ， 解 码 器 执行 道 操作 ， 





























如 图 8-1 所 示 。 
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C 
X, EE Encoder Ee 3 B Decoder 
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图 8-1 通用 自 编码 器 结构 
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如 果 代 码 是 p 维 向 量 ， 则 可 以 将 编码 器 定义 为 参数 化 函数 e(*): 


z=e(x,, 0,)where x, eR” and z, eR? 


类 似 地 ， 解 码 器 是 另 一 个 参数 化 函数 d(*): 
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t=d(z,0,) wheret, eR"” and zeR? 











因此 ， 完 整 自 编码 器 是 一 个 复合 函数 ， 


给 定 输入 样本 x;， 提 供 最 佳 重 建 作为 输出 : 





























t=d(e(w,0.),0,)= g(x,0) 




















由 于 它们 通常 通过 神经 网 络 实现 ， 因 



































数 ) 训练 自 编码 器 : 


或 者 ， 考 虑 到 数据 生成 过 程 ， 


由 于 
于 puue 和 9 之 间 交 叉 焙 的 最 4 








等 效 于 均 方 误差 ， 因 此 这 两 种 方法 是 可 互 换 的 。 在 某 些 情况 下 ， 当 数据 在 〈0,1) 范围 内 进 
行 归 一 化 时 ， 我 们 可 以 对 pa 和 q 使 用 伯 努 利 分 布 。 从 ] 
为 伯 努 利 分 布 是 二 元 的 , xiE {0, 1}”。 
{0, 1 的 成 功 优化 。 在 这 种 情况 下 ， 成 本 函 








此 使 月 








有 反 向 传播 算法 通常 基于 均 方 误差 成 本 也 


CO = es,0) 





我 们 可 以 考虑 











参数 化 条 件 分 布 gq(*) 重 新 表达 目标 : 











4( 充 | 元 ) = p(e(T,0,),0, | 万 ) 
因此 ， 成 本 函数 现在 可 以 成 为 pua(9 和 gq(*) 之 间 的 Kullback-Leibler 散 度 : 


Di (pi 9)= 二 mv 2 (Bog Le 


(7) 


q(%, |) 


pu 的 烂 是 常数 ， 因 此 我 们 可 以 通过 优化 过 程 ; 
\ 化 。 如 果 假 定 Pdata 和 9 为 







































































然而 , sigmoid 输 昌 








过 —H( pa) 和 


H( paaasq) = H( paaa,q) 十 大 


各 其 排除 。 因 此 ， 散 度 的 最 小 化 等 


高 斯 ， 则 Kullback-Leibler 成 本 函数 






































形式 上 来 说 ， 这 并 不 完全 正确 ， 因 









































单元 的 使 用 也 保证 了 连续 样本 x; E 





H(pasq) = -2 log(%)+(1 ~ 名 )log(1 一 名 ) 











8.2.1 深度 卷 积 自 编码 堪 示 例 
让 我 们 实现 




















集 相对 较 小 ， 但 提供 了 良好 的 表达 能 力 )。 首 先 从 加 载 

















lL 一 个 基于 TensorFlow 和 Olivetti 面部 数据 集 的 深度 卷 积 自 编 码 器 (该 数据 




















名 














像 和 准备 训练 集 开 始 : 











from sklearn.datasets import fetch olivetti faces 


faces = fetch olivetti faces (shuffle=True, 


XxX train = faces['images'] 


样本 是 400 个 64 像素 x64 像素 的 灰 度 图 


计算 速度 

















random state=1000) 


像 ， 我 们 将 调整 大 小 为 32 像素 x32 像素 ， 以 加 快 




















并 避免 内 存 问题 〈 此 操作 会 导致 视觉 精度 略 有 下 降 ， 如 果 你 有 足够 的 计算 资源 则 可 以 
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忽略 此 操作 )。 我 们 现在 可 以 定义 主要 常量 ，nb_epochs、batch_size、code_length 和 graph: 





配置 


import tensorflow as tf 


nb epochs = 600 
batch size = 50 
code lengtn = 256 
width = 32 
height = 32 


graph = tf.Graph() 























因此 ， 我 们 将 模型 迭代 600 代 ， 样 本 大 小 为 50 个 。 由 于 每 个 图 像 是 64x64=4096， 所 以 


压缩 比 是 4096/256=16 倍 。 当 然 ， 




















这 个 选择 不 是 一 个 硬性 的 规则 ， 我 建议 你 始终 尝试 不 同 的 


























， 以 最 大 限度 提高 收敛 速度 和 最 终 精 度 。 在 本 实例 中 ， 我 们 对 编码 器 进行 以 下 建 模 。 
。 具有 16 (3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 

。 具有 32 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 

。 具有 64 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 

。 具有 128 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 
























































解码 器 利用 一 系列 转 置 卷 积 













































































(也 称 反 卷 积 ) 











。 具有 128 (3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 。 
。 具有 64 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 
。 具有 32 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 


























。 具有 1 (3x3) 个 滤波 器 、 












































(1x1) 步 幅 、Sigmoid 激活 和 相同 填充 的 2D 转 置 卷 积 


























损失 函数 是 基于 重建 和 原始 图 











像 之 间 差 异 的 范 数 。 优 化 器 是 Adam， 学习 率 m=0.001。 


TensorFlow DAG 的 编码 器 部 分 如 下 : 


import tensorflow as tf 


with graph.as default (): 


input images xl = tf.placeholder (tf.float32, shape=(None, X train. 


shape[1], XxX train.shape[2], 


1)) 


input images = tf.image.resize images (input images xl, (width, height), 
method=tf.image.ResizeMethod.BICUBIC) 





# Encoder 
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conv 0 = tf.layers.conv2d (inputs=input images, 
filters=16, 
kernel size=(3, 3), 
strides=(2, 2), 
activation=tf.nn.relu, 
padding="'same') 

conv 1 = tf.layers.conv2d(inputs=conv_ 0， 
filters=32, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 

conv 2 = tf.layers.conv2d(inputs=conv 1, 
filters=64, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 

conv_ 3 = tf.layers.conv2d (inputs=conv 2, 


filters=128, 
kernel size=(3, 


3), 


activation=tf.nn.relu, 





padding="'same') 


DAG 的 代码 部 分 如 下 : 
import tensorflow as tf 


with graph.as default (): 
# Code layer 
code input = tf.layers.flatten(inputs=conv_ 3) 
code layer = tf.layers.dense(inputs=code input, 
units=code length, 
activation=tf.nn.sigmoid) 





code mean = tf.reduce mean (code layer, axis=1) 


DAG 的 解码 器 部 分 如 下 : 
import tensorflow as tf 


with graph.as default (): 
# Decoder 





decoder input = tf.reshape (code layer, (-1, int (width / 2), 


六 


int (height 
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convt 0 = tf.layers.conv2d transpose (inputs=decoder input, 
filters=128, 
kernel size=(3, 3), 
strides=(2, 2), 
activation=tf.nn.relu, 
padding="'same') 


convt 1 = tf.layers.conv2d transpose (inputs=convt 0, 
filters=64, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 


convt 2 = tf.layers.conv2d transpose (inputs=convt 1, 
filters=32, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 


convt 3 = tf.layers.conv2d transpose (inputs=convt 2, 
filters=1, 
kernel size=(3, 3), 
activation=tf.sigmoid, 
padding="'same') 

output images = tf.image.resize images (convt 3, (X train.shape[1]， 





train.shape[l2]), 
method=tf.image.ResizeMethod.BICUBIC) 


在 以 下 代码 段 中 定义 了 损失 函数 和 Adam 优化 器 : 
import tensorflow as tf 
with graph.as default (): 


# Loss 
loss = tf.nn.12 loss(convt 3 - input images) 





# Training step 
training step = tf.train.AdamOptimizer(0.001) .minimize (loss) 


~ 
二 


一 旦 定义 了 完整 的 DAG， 我 们 就 可 以 初始 化 会 话 和 所 有 变 








import tensorflow as tf 


session = tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 


xX 
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一 且 TensorFlow 初始 化 后 ， 我 们 就 可 以 启动 训练 过 程 了 ， 如 下 所 示 : 








import numpy as np 


for e in range (nb epochs): 
np.random.shuffle (Xx train) 


total loss = 0.0 


code means = [] 
for i in range(0, XxX train.shapel[0] - batch size batch size): 
X = np.expand dims (Xx train[i:i + batch size, :, :], axis=3) .astype 
(np.float32) , n loss, Cc mean = session.run([training step, loss, code mean]， 


feed dict={ 
input images xl: XxX 
}) 
total loss += n loss 
code means.append (c mean) 





print('Epoch {}) Average loss per sample: {} (Code mean: {})'" 
format (e + 1, total loss / float(X train.shape[0]), np.mean 
(code means))) 


代码 段 的 输出 如 下 : 

Epoch 1) Average loss per sample: 11.933397521972656 (Code mean: 
0.5420681238174438) 

Epoch 2) Average loss per sample: 10.294102325439454 (Code mean: 
0.4132006764411926) 

Epoch 3) Average loss per sample: 9.917563934326171 (Code mean: 
0.38105469942092896) 

Epoch 600) Average loss per sample: 0.4635812330245972 (Code mean: 











0.42368677258491516) 





在 训练 过 程 结 束 时 ， 每 个 样本 的 平均 损失 约 为 0.46 (考虑 32 像素 x32 像素 的 图 像 )， 
并 且 代码 的 平均 值 为 0.42。 该 值 表 示 编 码 相 当 密 集 ， 因 为 单个 值 应 均匀 分 布 在 〈0,1) 中。 
因此 ， 平 均值 为 0.5。 在 这 种 情况 下 ， 我 们 对 这 个 数据 不 感 兴趣 ， 但 我 们 也 会 在 寻找 稀疏 度 
时 比较 结果 。 


深度 卷 积 自 编 码 器 的 样本 输出 如 图 8-2 所 示 。 
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$ 积 自 编码 器 的 样本 输出 


样本 图 像 增加 到 64 像素 x64 像素 对 重建 质量 有 一 定 影 响 , 但 是 通过 降低 压缩 比 和 增加 
代码 长 度 ， 我 们 可 以 获得 更 好 的 结果 。 




















8.2.2 ”去 噪 自 编码 费 


自 编码 器 的 一 个 非常 有 用 的 应 用 与 它们 找到 低 维 表示 的 能 力 并 不 严格 相关 ， 而 是 依赖 
于 从 输入 到 输出 的 转换 过 程 。 特 别 地 ， 我 们 假设 一 个 以 0 为 中 心 的 数据 集 瑟 和 一 个 噪声 版 
本 ， 其 样本 有 具有 以 下 结构 : 

X= 元 +N(i)， 其 中 (i) ~ N(0, 区 ) 

在 这 种 情况 下 ， 自 编码 器 的 目标 是 去 除 噪声 项 并 恢复 原始 样本 x;。 从 数学 的 角度 来 看 ， 
标准 自 编 码 器 和 去 噪 自 编码 器 之 间 没 有 特别 的 区 别 ， 但 重要 的 是 要 考虑 这 些 模型 的 容量 需 
求 。 由 于 它们 必须 恢复 原始 样本 ， 所 以 在 输入 被 破坏 〈 其 特征 占据 更 大 的 样本 空间 ) 的 情 
况 下 ， 层 的 数量 和 维度 可 能 大 于 标准 自 编 码 器 。 当 然 ， 考 虑 到 复杂 性 ， 没 有 一 些 测试 就 不 
可 能 有 清晰 的 洞察 力 。 因 此 ， 我 强烈 建议 从 较 小 的 模型 开始 并 增加 容量 ， 直 到 最 佳 成 本 函 
数 达到 合适 的 值 。 为 了 增加 噪声 ， 这 是 一 些 可 能 的 策略 。 

。 损坏 每 个 批 次 中 包含 的 样本 《贯穿 整个 周期 )。 

。 使 用 噪声 层 作为 编码 器 的 输入 1 。 

。 使 用 丢失 层 作为 编码 器 的 输入 1《〈 例 如 使 用 椒盐 噪声 )。 在 这 种 情况 下 ， 我 们 可 以 
固定 丢失 的 概率 ， 或 者 可 以 在 预定 间隔 《〈 例 如 〈0.1,0.5)) 中 随机 采样 。 

如 果 假 设 噪声 是 高 斯 噪声 (这 是 最 常见 的 选择 )， 则 可 能 产生 同方 差 和 异 方差 噪声 。 在 
第 一 种 情况 下 ， 方 差 对 于 所 有 分 量 保 持 恒 定 ， 即 n(i)~N(0, o2D， 而 在 后 一 种 情况 下 ， 每 个 
分 量 都 有 其 自己 的 方差 。 在 没有 限制 的 时 候 ， 我 们 总 是 优选 采用 异 方差 噪声 ， 以 增加 系统 
的 整体 鲁 棒 性 。 
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向 深度 卷 积 自 编码 器 中 添加 噪声 




















在 此 示例 中 ,我们 将 修改 以 前 开发 的 深度 卷 积 自 编码 器 ， 以 便 管 理 噪声 输入 样本 。DAG 

















几乎 相同 ， 不 同 之 处 在 于 我 们 需要 同时 输入 噪声 图 像 和 原始 图 像 : 





import tensorflow as tf 


with graph.as default (): 
input images xl = tf.placeholder (tf.float32, 
shape= (None, X train.shape[1]， 


X train.shape[2], 1)) 





input noisy images _ xl = tf.placeholder (tf.float32, 
shape= (None, X train.shapel[l1], 
xX train.shape[2], 1)) 
input images = tf.image.resize images (input images xl, (width, heignt), 
method=tf.image.ResizeMethod.BICUBIC) 

input noisy images = tf.image.resize images (input noisy images xl, 
(width, height), 
method=tf.image.ResizeMethod.BICUBIC) 

















# Encoder 

conv 0 = tf.layers.conv2d(inputs=input noisy images, 
filters=16, 
kernel size=(3, 3), 
strides=(2, 2), 
activation=tf.nn.relu, 


padding="'same') 








当然 ， 损 失 函 数 是 通过 考虑 原始 图 像 来 计算 的 : 


loss = tt.nn.12 loss(convt 3 - input images) 





# Training step 
training step = tf.train.AdamOptimizer(0.001) .minimize (loss) 


在 变量 的 标准 初始 化 之 后 ， 我 们 可 以 考虑 增加 噪声 n;~ N(0, 0.45)〔 即 ow0.2) 来 开始 
训练 过 程 : 
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import numpy as np 


for e in range (nb epochs): 
np.random.shuffle (Xx train) 


total loss = 0.0 

code means = [] 

for i in range(0, XxX train.shape[0] - batch size batch size) : 
X = np.expand dims (X train[i:i + batch size, :, :], 


axis=3) .astype (np.float32) 
Xn = np.clip(X + np.random.normal (0.0, 0.2, size=(batch size, 
X train.shape[1], XxX train.shape[2], 1)), 0.0, 1.0) 


_, nloss, c mean = session.run([training step, loss, code mean], 
feed dict={ 
input images xl: XxX, 
input noisy images xl: Xn 





}) 
total loss += n loss 
code means.append (c mean) 


print('Epoch {}) Average loss per sample: {} (Code mean: {})'. 
format(e + 1, total loss / float (xX train.shape[0]), np.mean(code means))) 


























行 测试 ， 去 品 结 果 如 图 8-3 所 示 。 


TE Rr py 


一 旦 模型 经 过 训练 ， 就 可 以 用 一 些 有 噪声 的 样本 进 






















图 8-3 ”噪声 图 像 (上 )〉 和 去 噪 图 
如 你 所 见 ， 即 使 输入 图 像 已 经 完全 损坏 ， 但 自 编 码 器 已 成 功 学 习 如 何 去 噪 。 我 建议 你 
使 用 其 他 数据 集 测试 模型 ， 寻 找 允 许 合理 且 较 好 重建 的 最 大 噪声 方差 。 
8.2.3 ” 稀 踊 自 编码 器 


标准 自 编码 器 生成 的 代码 通常 很 密集 。 但 是 ， 正 如 在 本 书 第 7 章 中 所 讨论 的 那样 ， 
时 候 ， 我 们 最 好 使 用 超 完备 的 字典 和 稀疏 编码 。 实 现 此 目标 的 主要 策略 是 在 成 本 函数 中 简 
单 地 添加 工 惩罚 (在 代码 层 上 ): 

































































过 | 





C,(X,X,0)=C(X,X,0)+oad El 








x 常 数 决 定 将 达到 的 稀 玻 程度 。 当 然 ， 由 于 Cs 的 最 佳 值 与 原始 值 不 一 致 ， 为 了 达到 相 
同 的 精度 , 通常 需要 更 多 的 代 和 更 长 的 代码 层 。 由 Andrew Ng 提出 的 另 一 种 方法 (在 Sparse 
Autoencoder 一 文中 ) 是 基于 稍微 不 同 的 途径 。 代 码 层 被 认为 是 一 组 独立 的 伯 努 利 随 机 变量 。 
因此 ， 给 定 另 一 组 具有 小 均值 的 伯 努 利 变量 ， 例 如 p,~B(0.05)， 我 们 可 以 尝试 找到 最 佳 代 
码 ， 该 代码 也 最 大 限度 地 减少 了 z; 和 此 类 参考 分 布 之 间 的 Kullback-Leibler 散 度 : 
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因此 ， 新 的 成 本 函数 为 : 
C,(X,X,0)=C(X,X,0) +od Ls, 



































最 终 效果 与 使 用 工 惩罚 所 获得 的 效果 没有 太 大 差别 。 实 际 上 ， 在 这 两 种 情况 下 ， 模 型 
都 被 迫 学 习 次 优 表示 ， 同 时 也 试图 最 小 化 一 个 目标 ， 如 果 单 独 考虑 ， 将 导致 输出 代码 始终 
变 为 空 。 因 此 ， 全 成 本 函数 将 达到 最 小 值 ， 以 保证 模型 的 重建 能 力 和 稀 玻 度 〈 必 须 始终 与 
代码 长 度 平衡 )。 所 以 一 般 来 说 ， 代 码 越 长 ， 模 型 可 以 实现 的 稀 玻 度 越 大 。 

向 深度 卷 积 自 编码 器 中 添加 稀 琉 约束 


在 此 示例 中 ， 我 们 希望 通过 使 用 Li 惩罚 来 增加 代码 的 稀疏 度 。DAG 和 训练 过 程 与 主 
要 示例 完全 相同 ， 唯 一 的 区 别 是 损失 函数 ， 现 在 变 为 : 



















































































sparsity constraint = 0.01 * tf.reduce sum(tf.norm(code layer, ord=1, 
axis=1)) 
loss = tf.nn.12 loss(convt 3 - input images) + sparsity constraint 





我 们 增加 了 稀 玻 约束 ，cx = 0.01。 因 此 ,我 们 可 以 通过 检查 平均 代码 长 度 来 重新 训练 模 
型 。 该 过 程 的 输出 如 下 : 




















Epoch 1) Average loss per sample: 12.785746307373048 (Code mean: 
0.30300647020339966) 
Epoch 2) Average loss per sample: 10.576686706542969 (Code mean: 
0.16661183536052704) 
Epoch 3) Average loss per sample: 10.204148864746093 (Code mean: 
0.15442773699760437) 





Epoch 600) 
0.028538944199681282) 




















Average loss per sample: 


正如 你 所 看 到 的 ， 代 码 现在 变 得 非常 稀 玻 ， 最 终 平均 值 约 为 0.03。 这 条 信 





0.8058895015716553 
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(Code mean : 





息 表明 大 多 





数 代码 值 接近 于 0， 并 且 在 解码 图 像 时 只 能 考虑 其 中 的 几 个 值 。 (a 我 建议 你 分 析 


一 组 选 定 的 














8.2.4 变 分 自 编码 喜 


型 


和 一 组 可 


证 我 们 考虑 一 个 从 数据 生成 过 程 pa 中 提取 的 数据 集 X。 变 分 自 编码 器 是 一 

















基于 标准 
























































图 像 的 代码 ， 尝 试 根据 划 


自 编 码 器 的 主要 概念 ),| 
Bayes 中 )， 则 在 重 现 数据 生成 过 程 。 


























激活 或 停 用 来 理解 其 值 的 语义 























Kingma 和 Welling 提 




















学 习 参 数 0 的 通 








用 模型 开始 。 
的 目标 是 找到 似 然 PCcO) 最 大 化 的 最 优 参数 ， 这 可 以 通过 











为 了 实现 这 一 目标 ， 我 们 需要 从 基于 一 
给 定 样本 x;EX， 模 型 的 概率 为 p(x,z;0)。 
边缘 化 整个 联合 概率 来 得 到 : 











生成 模 











出 (在 Auto-Encoding Variational 





组 潜在 变量 z 
训练 过 程 





p(x¥;0)= [p(x,z;0)dz = | p(x¥|z;0)p(z;0)dz 














前 面 的 表达 式 很 简单 ， 但 








不 幸 的 是 ， 它 很 难 

















有 关于 先 验 p(z;0) 的 有 效 信息 
概率 也 非常 小 。 

介 决 这 个 问题 ， 一 
的 解释 )。 
里 参数 化 分 布 。 在 这 


换 句 话说 ， 给 























Leibler 散 度 : 


Dri(qllp)= Dlr ed 
=E.[log q(z |x;0,)]— 


当期 望 值 运算 符 在 z 上 工作 时 ， 我 们 可 以 提取 最 后 一 


从 而 变 为 : 


log p(X;0)— 





以 封闭 的 形式 处 理 。 主 要 原 











因 是 我 们 没 














。 此 外 ， 即 使 假设 z~N(0, 驴 (例如 N(0,D)， 找 到 有 效 样 本 的 
定 一 个 值 z， 我 们 不 太 可 能 生成 实际 属于 pa 的 样本 。 为 了 



































已 [log q(z|x;0,)]— 








' 变 分 方法 被 提出 ， 我 们 将 简要 介绍 一 下 前面 提 到 的 论文 中 有 完整 
先 假设 标准 自 编 码 器 的 结构 ， 然 后 我 们 通过 将 多 
一 点 上 ， 我 们 可 以 计 





i 人 码 器 建 模 为 g(zlx;0y) 来 引入 代 
gq(*) 和 实际 条 件 概 率 p(z|x;9) 之 间 的 Kullback- 


E.[log p(z|x;0)] 


ss p(X|z;0)—l1og p(z;0)+1o0g p(x;0)] 




















项 并 将 


Ll 


Di (ql p(z;0))] 
前 面 的 等 式 变 为 : 


= ELBOs + Dr (qlp) 


其 移动 到 表达 式 的 左 侧 ， 


Dra(q9|p)=E,llog gq(z|7x;0)—1og p(x|z;0)- 1og p(z;0)] 
=E,[llog p(x|z;0)— 
经 过 另 一 个 简单 的 操作 后 ， 


log p(x;0)=E.[log p(x|z;0)- Di (gp(z;0)) + Di (qlp)] 
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左 侧 是 模型 下 样本 的 对 数 似 然 ， 而 右 侧 是 非 负 项 (KL 散 度 ) 和 另 一 项 称 为 证 据 下 界 
(Evidence Lower Bound，ELBO) 的 总 和 : 











ELBOs; =-Di (ql p(z2;0)) +E.[log p(x,z;0)] 


正如 我 们 将 讨论 的 那样 ， 使 用 ELBO 比 处 理 公 式 的 剩余 部 分 更 容易 ， 并 且 由 于 KL 散 
度 不 会 产生 负面 影响 ， 因 此 如 果 我 们 最 大 化 ELBO， 我 们 也 最 大 化 对 数 似 然 。 

我 们 先前 定义 了 p(z; 9) = N(0, DD)。 因 此 ， 我 们 可 以 将 g(zlx; 0) 建 模 为 多 元 高 斯 模型 ， 其 
中 两 个 参数 集 〈 均 值 向 量 和 协 方差 矩阵 ) 由 分 裂 概率 编码 器 表示 。 特 别 是 给 定 样本 x， 编 
码 器 现在 必须 同时 输出 均值 向 量 y(z|x; 27) 和 协 方差 矩阵 (zlx; 0y)。 为 简 音 起见， 我们 可 以 
假设 矩阵 是 对 角 线 矩阵 ， 因 此 两 个 分 量具 有 完全 相同 的 结构 。 得 到 的 分 布 是 gq(zlx; 0s) = 
NU 人 Cpc 00), 2(zlx; 9))。 因 此 ，ELBO 的 第 一 项 是 两 个 高 斯 分 布 之 间 的 负 KL 散 度 : 







































































































































































Du (N(u(z|x;0), Sz17;0 NGO,D) = 


1 元 RR a 
72 | EE 0) H(zZ 1x;0,) -log| 2(z1x;0,)|-p) 











在 前 面 的 公式 中 ，P 是 代码 长 度 ， 因 此 它 是 均值 向 量 和 对 角 协 方差 向 量 的 维 数 。 右 侧 
的 表达 式 很 容易 计算 ， 因 为 开 是 对 角 的 〈 即 该 矩阵 的 迹 是 元 素 的 总 和 ， 行 列 式 是 乘积 )。 然 
而 ， 当 采用 随机 梯度 下 降 (Stochastic Gradient Descent，SGD ) 算法 时 ， 该 公式 的 最 大 化 
虽然 是 正确 的 ， 但 不 是 可 微 的 运算 。 为 了 克服 这 个 问题 ， 建 议 大 家 重新 分 配 分 布 。 

当 一 个 批 次 出 现时 ， 我 们 对 正 态 分 布 进行 采样 ， 获 得 a ~ N(0, D)。 使 用 此 值 和 概率 编码 
器 的 输出 可 以 构建 所 需 的 样本 : wzlxz; 0y) + a。Z(z|x; 0y)。 该 表达 式 是 可 微分 的 ， 因 为 a 在 
每 批 次 中 是 恒定 的 (当然 , yzlx; 2) 和 Zzlx; 0y) 通 过 神经 网 络 进行 参数 化 , 它们 是 可 微分 的 )。 

ELBO 右 侧 的 第 二 项 是 log p(xlz; 9) 的 期 望 值 。 显 而 易 见 ， 这 样 的 表达 式 与 原始 分 布 和 
重 构 之 间 的 交叉 炉 相对 应 : 


E.[log p(x|3;0,)]=S p(z1x;0, )log p(x|3;0)=—H(p(z |x;0), p(x|3;0)) 



























































































































































这 是 标准 自 编码 器 的 成 本 函数 ， 我 们 将 在 假设 使 用 伯 努 利 分 布 时 将 其 最 小 化 。 那 么 ， 
公式 如 下 : 








H=-S5 p(x| z;0)log (p(x|z;0) +( -p(x|z;0)log(1— p(x|z;0)) 








深度 卷 积 变 分 自 编码 器 示例 
在 这 个 例子 中 , 我 们 希望 构建 并 训练 一 个 基于 Olivetti 面部 数据 集 的 深度 卷 积 变 分 自 编 
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码 器 。 该 结构 与 我 们 第 一 个 示例 中 使 用 的 结构 非常 相似 。 编 码 器 具有 以 下 层 。 
。 具有 16 (3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 
。 具有 32 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 
。 具有 64 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 
。 具有 128 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 卷 积 。 
解码 器 具有 以 下 转 置 卷 积 。 
。 有 具有 128 (3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 。 
。 有 具有 128(3x3) 个 滤波 器 、(2x2) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 。 
。 具有 32 (3x3) 个 滤波 器 、(1x1) 步 幅 、ReLU 激活 和 相同 填充 的 2D 转 置 卷 积 。 
。 具有 1 (3x3) 个 滤波 器 、(1x1) 步 幅 、Sigmoid 激活 和 相同 填充 的 2D 转 置 卷 积 。 


噪声 的 产生 完全 由 TensorFlow 管理 ， 这 是 基于 理论 部 分 所 解释 的 技巧 。DAG 的 第 一 
部 分 (包含 图 形 定义 和 编码 器 〉 显 示 在 以 下 代码 段 中 : 
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import tensorflow as tf 


nb epochs = 800 
batch size = 100 
code lengthn = 512 
width = 32 
height = 32 


graph = tf.Graph() 


with graph.as default (): 

input images xl1 = tf.placeholder (tf.float32, 
shape= (batch size, X train.shapel[1], 
XxX train.shape[2], 1)) 

input images = tf.image.resize images (input images xl, (widthn, height), 
method=tf.image.ResizeMethod.BICUBIC) 








# Encoder 

conv 0 = tf.layers.conv2d (inputs=input images, 
filters=16, 
kernel size=(3, 3), 
strides=(2, 2), 


activation=tf.nn.relu, 
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padding="'same') 


conv 1 = tf.layers.conv2d(inputs=conv_0, 
filters=32, 
kernel size=(3, 3), 


activation=tf.nn.relu, 
padding="'same') 

conv 2 = tf.layers.conv2d (inputs=conv 1， 
filters=64, 

kernel size=(3, 3), 
activation=tf.nn.relu, 





padding="'same') 


conv_ 3 = tf.layers.conv2d (inputs=conyv 2, 
filters=128, 
kernel size=(3, 3), 
activation=tf.nn.relu, 
padding="'same') 


DAG 中 定义 代码 层 的 部 分 如 下 : 
import tensorflow as tf 
with graph.as default (): 

# Code layer 


code input = tf.layers.flatten(inputs=conv_ 3) 


code mean = tf.layers.dense (inputs=code input, 
units=width * height) 


code log variance = tf.layers.dense (inputs=code input,units=width * height) 
code std = tf.sqrt(tf.exp (code log variance)) 

DAG 的 解码 器 部 分 如 下 : 

import tensorflow as tf 

with graph.as default (): 
# Decoder 


decoder input = tf.reshape (sampled code, (-1, int(width / 4), 
int (height / 4), 16)) 





convt 0 = tf.layers.conv2d transpose (inputs=decoder input, 
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filters=128, 

kernel size=(3, 3), 
strides=(2, 2), 
activation=tf.nn.relu, 
padding="'same') 


convt 1 = tf.layers.conv2d transpose (inputs=convt 0, 
filters=128, 

kernel size=(3, 3), 

strides=(2, 2), 

activation=tf.nn.relu, 

padding='same') 

convt 2 = tf.layers.conv2d transpose (inputs=convt 1, 

filters=32, 

kernel size=(3, 3), 


activation=tf.nn.relu, 





padding="'same') 


convt 3 = tf.layers.conv2d transpose (inputs=convt 2, 
filters=1, 
kernel size=(3, 3), 
padding="'same') 


convt output = tf.nn.sigmoid(convt 3) 

output images = tf.image.resize images (convt output, (X train.shapel[ll], 
X train.shape[2])， 
methodq=tft.image.ResizeMethodq.BICUBIC) 


DAG 的 最 后 一 部 分 包含 损失 函数 和 Adam 优化 器 ， 如 下 所 示 : 
import tensorflow as tf 


with graph.as default (): 

# Loss 

reconstruction = 
tf.nn.sigmoid cross entropy with logits (logits=convt 3, 
labels=input images) 


kl divergence = 0.5 * tf.reduce sum( 
tf.square (code mean) + tf.square(code std) - tf.log(le-8 + 
tf.square (code std)) - 1, axis=1) 
loss = tf.reduce suml(tf.reduce sum(reconstruction) + kl divergence) 


# Training step 
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training step = tf.train.Rdamoptimizer(0.001) .minimize (loss) 
损失 函数 由 以 下 两 部 分 组 成 。 
。 其 于 交叉 烂 的 重建 损失 。 
。 代码 分 布 和 参考 正 态 分 布 之 间 的 Kullback-Leibler 散 度 。 


此 时 ， 像 往常 一 样 ， 我 们 可 以 初始 化 会 话 和 所 有 变量 ， 并 开始 800 次 迭代 和 100 个 样 
本 的 训练 过 程 : 











import tensorflow as tf 
import numpy as np 


session = tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 


for e in range (nb epochs): 
np.random.shuffle (Xx train) 


total loss = 0.0 


for i in range(0, XxX train.shape[0] - batch size batch size) : 
xX = np.zeros((batch size, 64, 64, 1), dtype=np.float32) 
[rat Dateh. si2er a] 
_,， n loss = session.run([training step, loss], 


feed dict={ 
input images xl: XxX 
}) 
total loss += n_loss 


print('Epoch {}) Average loss per sample: {}'.format(e + 1, total loss 
/ float(batch size))) 


在 训练 过 程 结束 时 ， 我 们 可 以 测试 几 个 样本 的 重 构 ， 结 果 如 图 8-4 所 示 。 
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作为 练习 ， 我 建议 读者 修改 DAG， 以 便 接受 通用 输入 代码 并 评估 模型 的 生成 属性 。 或 
者 ， 可 以 获得 训练 样本 的 代码 并 施加 一 些 噪声 ， 以 观察 对 输出 重 构 的 影响 。 


























8.3 ”基于 赫 布 的 主 成 分 分 析 




















在 本 节 中 ， 我 们 将 分 析 两 个 神经 模型 (Sanger 和 Rubner-Tavan 网 络 )， 它 们 可 以 执行 
主 成 分 分 析 ， 无 须 特征 分 解 协 方差 矩阵 或 执行 截断 的 SVD 。 这 两 个 神经 模型 都 基于 赫 布 学 
习 (Hebbian Learning ) 的 概念 (更 多 细节 , 请 参阅 Theoretical Neuroscience 或 者 Mastering 

























































































Machine Learning Algorithms), 这 是 最 早 的 关于 简单 的 神经 元 动力 学 的 数 


学 理论 之 一 。 这些 


























概念 非常 有 趣 ， 特 别 是 在 成 分 分 析 领 域 ， 为 更 好 地 理解 网 络 的 动态 ， 提 供 神经 元 基本 模型 









































的 快速 概述 都 很 有 帮助 。 证 我 们 考虑 一 个 输入 xE 因 "和 一 个 权重 向 量 wE 罗 "。 神 经 元 执行 

















点 积 〔 无 偏差 );， 以 产生 标量 输出 y: 








JE 
y=WX 


























现在 ， 我 们 想象 两 个 神经 元 ， 第 一 个 被 称 为 突 触 前 神经 元 ， 男 一 个 被 称 为 突 触 后 神经 








元 。 赫 布 定律 指出 ， 当 突 触 前 神经 元 和 突 触 后 神经 元 输出 具有 相同 符号 的 值 〈 特 别 是 两 者 














都 是 正 数 ) 时 ， 突 触 强 度 必 须 增加 ， 而 当 符 号 不 同时 ， 它 必须 被 削弱 。 这 种 概念 的 数学 表 





达 式 如 下 : 





AW=nyx =n(W Xx 












































常数 是 学 习 率 。 完 整 的 分 析 超 出 了 本 书 的 范围 ,但 是 有 可 能 证 明 赫 布 神经 元 (通过 一 



































些 非 常 简 单 的 修改 ， 控 制 w 的 生长 〉 可 以 修改 突 触 权 重 ， 以 便 在 经 过 大 量 的 迭代 后 ， 它 沿 着 















































数据 集 了 对 的 第 一 个 主 成 分 对 齐 。 以 这 个 结论 (不 再 证 明 ) 为 起 点 ， 我 们 可 以 介绍 Sanger 网 络 。 





8.3.1 Sanger 网 络 





Sanger 网 络 模型 由 Sanger 提出 (在 Optimal Unsupervised Learning 




















in a Single-Layer 




















Linear Feedforward Neural Network 中 ), 为 了 通过 在 线程 序 以 降序 提取 数 
































成 分 (相反 ,标准 PCA 需要 整个 数据 集 的 批 处 理 过 程 )。 虽 然 有 一 种 基于 SVD 特定 版 本 的 
增 量 算法 ,但 相 较 而 言 ， 这 些 神经 模型 的 主要 优点 是 它们 能 够 在 不 损失 性 能 的 情况 下 处 理 





















































B 集 了 的 前 个 主 























单个 样本 。 在 展示 网 络 结构 之 前 ， 有 必要 对 赫 布 定律 进行 修改 ， 该 定律 称 为 Oja 定律 : 





AW= ny — yw 


引入 该 定律 是 为 了 解决 标准 赫 布 神经 元 无 限 生 长 的 问题 。 实 际 上 ， 这 也 很 容易 理解 ， 
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如 果 点 积 wx 为 正 ， 则 Aw 将 通过 逐渐 增加 w 的 幅度 来 更 新 权重 。 因 此 ， 在 大 量 迭 代 之 后 ， 
模型 可 能 会 溢出 。Oja 定律 通过 引入 自动 限制 来 克服 这 个 问题 ， 该 限制 会 迫使 权重 达到 饱 
和 ， 不 影响 神经 元 找到 第 一 主 成 分 方向 的 能 力 。 实 际 上 ， 用 wx 表示 进行 第 次 迭代 后 的 权 
重 向 量 ， 可 以 证 明 以 下 内 容 : 






































1 
lim |w | = 一 一 
大 一 co 


Va 
Sanger 网 络 基 于 Oja 定律 的 修改 版 本 ， 被 定义 为 广义 赫 布 学 习 (Generalized Hebbian 
Learning，GHL)。 假 设 我 们 有 一 个 数据 集 X， 包含 m 个 问 量 ，xi;E 斩 "。 通 用 的 Sanger 网 
络 结构 如 图 8-5 所 示 。 














Yi > Ym 
Ni | Nn» ) eee \ Nm 
Ws 
( X1 (Xz , Xn 




















图 8-5 通用 的 Sanger 网 络 结构 





















































权重 被 组 织 成 矩阵 ， 球 = {wy} (wy 是 连接 突 触 前 神经 元 i 与 突 触 后 神经 元 j 的 权重 )， 
因此 ， 我 们 可 以 使 用 以 下 公式 计算 输出 的 激活 : 






































W 
在 这 种 网 络 中 ， 我 们 对 最 终 权 重 更 感 兴 趣 ， 因 为 它们 必须 等 于 前 n 个 主 成 分 。 但 不 
笠 的 是 ， 如 果 我 们 在 没有 任何 修改 的 情况 下 应 用 Oja 定律 ， 所 有 的 神经 元 都 会 找到 相同 
的 分 量 〈 第 一 个 )， 因 此 我 们 必须 采用 不 同 的 策略 。 从 理论 上 讲 ， 我 们 知道 主 成 分 必须 是 
正 交 的 ， 如 果 wi 是 具有 第 一 个 分 量 方向 的 矢量 ， 我 们 可 以 强制 wz 与 wi 正 交 ， 依 此 类 推 ， 
该 方法 基于 Gram-Schmidt 正 交 归 一 化 程序 。 让 我 们 考虑 两 个 向 量 一 一 wi 已 经 收敛 ，w20 
在 没有 任何 干预 的 情况 下 也 会 收敛 到 wi。 我 们 可 以 通过 考虑 wo 在 wi 上 的 投影 来 找到 wo 


的 正 交 分 量 : 
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Ps (Wo) 3 mT 
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川 


此 时 ， 正 交 分 量 w 等 于 如 下 : 


il 
呀 





Ww, = Wo — Ps (Wo) 


第 三 个 分 量 必须 与 wi 和 w, 正 交 ， 因 此 必须 对 所 有 n 个 单元 重复 该 过 程 ， 直 到 最 终 收 
敛 。 此 外 ， 我 们 现在 使 用 的 是 已 经 融合 的 分 量 ， 即 使 用 的 是 并 行 更 新 的 动态 系统 。 因 此 ， 
我 们 有 必要 将 此 过 程 合 并 到 学 习 规则 中 ， 如 下 所 示 : 


Aw; al» x -ny | 
先前 的 更 新 是 指 给 定 输入 x 的 单个 权重 wy。 容易 理解 的 是 ， 第 一 部 分 是 标准 的 赫 布 定 
律 ， 而 剩 下 的 部 分 是 正 交 项 ， 它 扩展 到 六 之 前 的 所 有 单元 。 
在 矩阵 形式 中 ， 更 新 变 为 以 下 内 容 : 
AW =n(y x -Tril(y y WW) where yy =WXxx WY 


函数 ZYil(*) 计 算 方 阵 的 下 三 角 部 分 。 其 与 之 前 的 收敛 性 证 明 是 不 同 的 ， 但 是 在 7 
递减 的 条 件 下 ， 我 们 可 以 看 到 该 模型 如 何以 降序 收敛 到 前 个 主 成 分 : 
limn,=0 


tS 

























































































































































































单调 

































































这 种 约束 并 不 难 实现 ， 然 而 ， 通 常 当 7 < 1 时 ， 该 算法 也 可 以 达到 收敛 并 且 在 迭代 期 
间 保 持 不 变 。 


Sanger 网 络 示例 
让 我 们 考虑 一 个 用 scikit-learn 的 make_blobs0 函 数 获得 的 二 维 以 0 为 中 心 的 数据 集 : 





import numpy as np 


def zero center (Xd): 
return Xd - np.mean (Xd, axis=0) 





XxX, _ = make blobs(n samples=500, centers=3, cluster std=[5.0, 1.0, 2.5], 
random state=1000) 
Xs = zero center (xX) 


Q = np.cov (Xs.T) 
eigu, eigv = np.linalg.eig(Q) 


print('Covariance matrix: {}'.format (0)) 





print('Eigenvalues: {}'.format (eigu)) 


224 


第 8 章 无 监督 神经 网 络 模型 





print('Eigenvectors: {}'.format (eigv.T)) 


代码 段 的 输出 如 下 : 


Covariance matrix: [[18.14296606 8.15571356] 
[ “8 155713506.22.8701E2390]] 

Eigenvalues: [12.01524122 28.99783723] 

Eigenvectors: [[-0.79948496 0.60068611] 
[-0.60068611 -0.79948496] ] 


























特征 值 分 别 约 为 12 和 29， 表 明 第 一 主 成 分 (对 应 于 转 置 的 特征 向 量 和 矩阵 的 第 一 行 ， 即 











-0.799.0.6)) 比 第 二 主 成 分 短 得 多 。 当 然 ， 在 这 种 情况 下 ， 我 们 已 经 通过 特征 分 解 协 方差 矩阵 
来 计算 主 成 分 , 但 这 仅仅 是 出 于 教学 目的 。Sanger 网 络 将 按 降序 提取 分 量 ， 因 此 ， 我 们 希望 找到 


As 






























































第 二 列 作为 第 一 列 ， 第 一 列 作为 权重 矩阵 的 第 二 列 。 让 我 们 从 初始 化 权重 和 训练 常数 开始 : 








import numpy as np 


n components = 2 
learning rate = 0.01 
nb iterations = 5000 
t= 0.0 


W_sanger = np.random.normal (scale=0.5, size=(n components, Xs.shape[1])) 
W_ sanger /= np.linalg.norm(W sanger, axis=1) .reshape((n components, 1)) 


为 了 重 现 该 示例 ， 必 须 将 随机 种 子 设置 为 1000， 即 
np.random.seed(1000)。 





























在 这 种 情况 下 ， 我 们 执行 固定 的 迭代 次 数 〈5000)。 但 是 ， 我 建议 你 修改 这 个 示例 ， 以 












































便 使 用 基于 两 个 后 续 时 间 步 幅 计算 权重 差 的 范 数 〈 例 如 Frobinius) 公差 和 停止 标准 〈 此 方 
































法 可 以 通过 避免 无 用 的 迭代 来 加 速 培训 )。 























Sanger 网 络 的 初始 配置 如 图 8-6 所 示 。 
此 时 ， 我 们 可 以 开始 训练 周期 : 














import numpy as np 


for i in range (nb iterations): 
dw = np.zeros((n components, Xs.shapel[l1])) 
七 += 1.0 
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for ]j in range (Xs.shape[0]): 


Ysj = np.dot (W sanger, Xs[j]) .reshape((n components, 1)) 

QOYd = np tril(np dot (Ys, Yj].T)) 

dw += np.dot (Ysj, Xs[j] .reshape((1, XxX.shapel[1]))) - np.dot(QYgqd, 
W_sanger) 


W sanger += (learning rate / t) * dw 
W sanger /= np.linalg.norm(W sanger, axis=1) .reshape((n components, 1)) 


print('Final weights: {}'.format (W sanger)) 
print('Final covariance matrix: {}'.format (np.cov (np.dot (Xs, 
W_sanger.T) .T))) 


XI 

















-15 -10 5 池 0 5 10 
图 8-6 ”Sanger 网 络 的 初始 配置 
代码 段 的 输出 如 下 : 


Final weights: [[-0.60068611 -0.79948496] 
[-0.79948496 0.60068611]] 

Final covariance matrix: [[ 2.89978372e+01 -2.31873305e-13] 
[-2.31873305e-13 1.20152412e+01]] 








| 








如 你 所 见 ， 最 终 协 方差 矩阵 与 预期 相关 ， 并 且 权 重 已 经 收敛 到 C 的 特征 向 量 。Sanger 
网 络 的 最 终 配 置 “ 主 成 分 ) 如 图 8-7 所 示 。 





226 第 8 章 无 监督 神经 网 络 模型 


XI 


Xo 




















图 8-7 ”Sanger 网 络 的 最 终 配置 


第 一 个 主 成 分 对 应 于 权重 wo， 它 是 最 大 的 ， 而 wi 是 第 二 个 主 成 分 。 我 建议 你 使 用 更 高 
维 的 数据 集 测 斌 网络， 并 根据 协 方差 矩阵 的 SVD 或 特征 分 解 将 性 能 与 标准 算法 进行 比较 。 





8.3.2 Rubner-Tavan 网 络 











由 Rubner 和 Tavan 提出 了 另 一 个 可 以 执行 PCA 的 神经 网 络 ( 参 见 4 Self-Organizing Network 


for Principal-Components Analysis)。 人 然而 ， 

他 们 的 方法 基于 协 方差 矩阵 的 去 相关 ， 这 是 
PCA 的 最 终结 果 《〈 也 就 是 说 ， 它 就 像 是 采用 
自 下 而 上 的 策略 操作 ， 而 标准 程序 是 自 上 而 
下 的 )。 让 我 们 考虑 一 个 以 0 为 中 心 的 数据 集 
筷 和 一 个 输出 为 yE 因 "向 量 的 网 络 。 因 此 ， 

通过 Rubner-Tavan 网 络 的 结构 如 图 8-8 所 示 ， 
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输出 分 布 的 协 方差 矩阵 如 下 : Ww, 
1 Dpayn 机 > iD 





pa 











8-8 通用 Rubner-Tavan 网 络 的 结构 
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如 你 所 见 ，Rubner-Tavan 网 络 与 Sanger 网 络 的 主要 区 别 在 于 每 次 输出 单元 之 前 存在 求 
和 节点 (第 一 个 除外 )。 这 种 方法 称 为 分 层 横 向 连接 (Hierarchical Lateral Connection )， 
因为 每 个 节点 y; (i > 0) 由 直接 分 量 n; 组 成 ， 总 和 为 所 有 先前 的 加 权 输 出 。 因 此 ， 假 设 符号 
v0 指示 向 量 的 第 i 个 向 量 i， 则 Rubner-Tavan 网 络 的 输出 如 下 所 示 : 


也 全 > 十 Sa 

我 们 已 经 证 明 ， 上 其 有 特定 权重 更 新 规则 (我们 将 要 讨论 的 ) 的 该 模型 收敛 于 单个 稳定 
的 固定 点 ， 并 且 输 出 被 迫 变 得 互 不 相关 。 查 看 模型 的 结构 ， 操 作 顺 序 如 下 。 

。 第 一 个 输出 保持 不 变 。 

。 第 二 个 输出 被 迫 与 第 一 个 输出 不 相关 。 

。 第 三 个 输出 被 迫 与 第 一 个 和 第 二 个 输出 不 相关 ， 依 此 类 推 。 

。 最 后 的 输出 被 迫 与 之 前 的 所 有 输出 不 相关 。 

在 多 次 迭代 之 后 ， 每 个 生成 yy;( 其 中 ij) 都 变 为 空 ， 并且 C 成 为 对 角 协 方差 矩阵 。 
此 外 ， 在 上 述 论文 中 ， 作 者 证 明了 特征 值 《 对 应 于 方差 ) 按 降序 排列 ， 因 此 我 们 可 以 通过 
包含 前 疡 行 和 列 的 子 和 矩阵 来 选择 前 疡 个 分 量 。 


Rubner-Tavan 网 络 通过 使 用 两 个 不 同 的 定律 进行 更 新 ， 每 个 定律 对 应 一 个 权重 层 。 使 
3 Oja 定律 更 新 内 部 权重 wj: 

















































































































































































































y° (x =(N) 


Aw, =717 —w,y") 


这 条 定律 保证 了 在 wy 不 无 限 增长 的 情况 下 提取 主 成 分 。 相 反 ， 外 部 权重 wj 使 用 反 赫 
布 定律 更 新 : 












































An nT 0 (FO + vO) Vik 


一 个 公式 的 第 一 项 -my0y 中 负责 相关 性 ,而 第 二 项 类 似 于 Oja 定律 ， 作 为 自 限 制 正则 

i es | 是 -yy 中 项 可 以 被 解释 为 更 新 规则 Awy si 它 受 由 Ar 
项 校正 的 实际 输出 影响 。 考 虑 到 Sanger 网 络 的 行为 ， 我 们 很 难 理解 ， 一 旦 输出 被 取消 相关 
性 ， 内 部 权重 wy 就 会 变 成 正 交 的 ， 表 示 马 的 第 一 主 成 分 。 
在 矩阵 形式 中 ， 权 重 wy 可 以 立即 排列 成 天 = {wy}， 因 此 在 训练 过 程 结束 时 ， 每 列 
都 是 C 的 特征 向 量 《〈 按 降序 排列 )。 相 反 ， 对 于 外 部 权重 ww， 我 们 需要 再 次 使 用 TYi7(*) 


运算 符 : 
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到 0 0 0 
Vv ee 
1 0 0 
V = TriliyG. 0w i : 
Vy, ee a 
Vinl Vin2 0 


因此 ， 返 代 t+1 的 输出 变 为 : 
y=WxX+Vy" 
值得 注意 的 是 ， 这 样 的 网 络 输出 具有 周期 性 。 因 此 ， 一 旦 输入 被 应 用 ， 就 需要 进行 几 
次 迭代 以 便 让 yy 稳定 下 来 〈 理 想 情况 下 ， 更 新 必须 持续 到 | -7 一 0)。 
Rubner-Tavan 网 络 示例 


在 此 示例 中 , 我 们 将 使 用 Sanger 网 络 示例 中 定义 的 数据 集 ， 以 便 使 用 Rubner-Tavan 网 
络 来 执行 主 成 分 提取 。 为 方便 起 见 ， 让 我 们 重新 计算 特征 分 解 : 






































































































































import numpy as np 


Q = np.cov (Xs.T) 
eigu, eigv = np.linalg.eig(Q) 


print('Eigenvalues: {}'.format (eigu)) 





print('Eigenvectors: {}'.format (eigv.T)) 


代码 段 的 输出 如 下 : 





Eigenvalues: [12.01524122 28.99783723] 
Eigenvectors: [-0.79948496 0.60068611] 
[-0.60068611 -0.799484961] 








我 们 现在 可 以 初始 化 超 参 数 ， 如 下 所 示 : 








n components = 2 
learning rate = 0.0001 
max iterations = 1000 
stabilization cycles = 5 
threshold = 0.00001 





W = np.random.normal(0.0, 0.5, size=(Xs.shapel[ll1l], n components)) 
V= np.tril(np.random.normal (0.0, 0.01, size=(n components, n components))) 
np:fill. diadgonal (V; 050) 


prev W = np.zeros ((Xs.shape[1l]， 


二 :0 











因此 ， 我 们 选择 使 用 等 了 
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n_components)) 




















0.00001 的 停止 闪 值 (比较 基于 权重 算 阵 的 两 次 连续 计算 的 











Frobenius 范 数 ) 和 最 多 1000 次 和 迭代。 我 们 还 设置 了 5 个 稳定 周期 和 固定 学 习 速 率 1=0.0001。 











现在 可 以 开始 学 习 过 程 了 ， 如 下 所 示 : 


import numpy as np 


while np.linalg.norm(W - prev_W, 


max iterations: 
prev W = W.copy() 
t += 1 


ord='fro') > threshold and 七 < 


for i in range (Xs.shape[0]): 


yp = np.zeros((n components, 1)) 


Xi = np.expand dims (Xs[i], 1) 
y = None 
for in range(stabilization cycles): 


y = np.dot(W.T, 
y.copy() 


dW = np.zeros ((Xs.shape[1]， 
dV = np.zeros((n components, 


xi) + np.dot(V, y_p) 


n_ components)) 


n_ components)) 


for 七 in range(n components): 


y2 = np.power (y[t], 2) 








dW[:, t] = np.squeeze((y[t] * xi) + (y2 * np.expand dims (W[:, 
七] 了) 
dV[It, :] = -np.squeeze((y[t] * y) + (y2 * np.expand dims (VI[t, 
], 1))) 
W += (learning rate * dWw) 
V += (learning rate * dyV) 
V= np.tril(V) 
np.fill diagonal(V, .0) 





W /= np.linalg.norm(W, 


print('Final weights: 


axis=0) .reshape((1, n components)) 


{} 7 .format (W)) 
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代码 段 的 输出 如 下 所 示 : 





Final weights: [[-0.60814345 -0.80365858] 
[-0.79382715 0.59509065]] 























正如 预期 的 那样 ， 权 重 收敛 于 协 方差 矩阵 的 特征 向 量 。 我 们 同样 还 计算 最 终 的 协 方差 
和 矩阵， 以 便 检查 其 值 ; 












































import numpy as np 
Y comp = np.zeros((Xs.shape[0], n components)) 


for i in range (Xs.shape[0]): 
yp = np.zeros((n components, 1)) 
Xi = np.expand dims (Xs[i], 1) 


for in range(stabilization cycles): 
Y comp[i] = np.squeeze (np.dot (W.T, xi) + np.dot (V.T, y_p)) 


yp = y.copy() 


print('Final covariance matrix: {}'.format (np.cov(Y comp.T))) 


输出 如 下 : 


Final covariance matrix: [[28.9963492 0.31487817] 
[ 0.31487817 12.01606874]] 

















同样 ， 最 终 的 协 方差 矩阵 是 不 相关 的 (误差 可 忽略 不 计 )。Rubner-Tavan 网 络 通常 
Sanger 网 络 更 快 ， 由 于 反 赫 布 反 馈 加 速 了 融合 ， 因 此 ， 当 采用 这 种 模型 时 ， 它 们 应 该 是 
选 的 。 然 而 为 了 避免 振荡 ， 调 整 学 习 速率 是 非常 重要 的 ， 我 建议 从 一 个 较 小 的 值 开始 ， 稍 
微 增 加 它 ， 直 到 从 代 次 数 达 到 最 小 值 。 

另外 我 们 也 可 以 从 较 高 的 学 习 速 率 开 始 , 从 而 加 快 初始 校正 速度 , 并 通过 使 用 线性 (如 
Sanger 网 络 ) 或 指数 衰减 来 逐步 降低 学 习 速 率 。 
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在 本 节 中 ， 我 们 将 讨论 一 个 非常 著名 的 生成 模型 。 在 无 监督 的 情况 下 ， 我 们 可 以 使 用 
该 模型 来 执行 输入 数据 集 蕊 的 降 维 ， 该 模型 来 自 预定 义 的 数据 生成 过 程 。 由 于 本 书 没 有 特 
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定 的 先决 条 件 且 该 模型 的 数学 复杂 性 很 高 ， 所 以 我 们 将 简要 介绍 概念 ， 不 提供 证 明 过 程 ， 
也 不 会 深入 分 析 算 法 的 结构 。 在 讨论 深度 置信 网 络 之 前 ， 有 必要 引入 另 一 个 模型 ， 即 受 限 
玻 尔 兹 曼 机 (Restricted Boltzmann Machine，RBM)， 它 可 以 被 认为 是 DBN 的 一 个 组 成 
部 分 。 


8.4.1 受 限 玻 尔 兹 曼 机 



































RBM 也 被 称 为 Harmonium ,在 Information Processing in Dynamical Systems: Foundations 
of Harmony Theory 中 作为 概率 生成 模型 被 提出 。 换 句 话 说 ，RBM 的 目标 是 学 习 未 知 分 布 〈 即 




















































































































数据 生成 过 程 )， 以 便 生成 所 有 可 能 的 样本 。 通 用 的 受 限 玻 尔 兹 曼 机 结构 如 图 8-9 所 示 。 
神经 元 x 是 可 观测 的 《〈 即 它们 表示 由 h, BS .从 

RBM 必须 学 习 的 过 程 所 生成 的 向 量 ), 而 

是 隐藏 的 ( 即 它们 被 隐藏 并 且 有 助 于 x 假定 

的 值 )。 由 于 同一 层 的 神经 元 之 间 没 有 连接 

( 即 描述 网 络 的 图 是 独立 的 ), 因此 在 没有 任 (x X2 二 Xn 

何 进一步 细节 的 情况 下 , 我 们 需要 说 明 这 个 i 

模型 具有 马尔 可 夫 随 机 场 (Markov Random 图 8-9 通用 的 受 限 玻 尔 兹 曼 机 结构 






























































Field，MRF) 的 结构 。MRF 的 一 个 重要 特性 是 可 以 用 Gibbs 分 布 模拟 完整 的 联合 概率 p(x, h; 0): 





tl a 
XT,h:0)=—e 0) 
Dp( ) 


指数 E(x, h, 0) 起 到 物理 系统 能 量 的 作用 ， 在 本 示例 中 ， 它 等 于 以 下 内 容 : 
E(T,h)=—)>, > wwh,— > bx— Ych,ando={w,b,c} 





























该 公式 的 主要 假设 是 所 有 神经 元 都 是 伯 努 利 分 布 的 ( 即 xshy~B (0,1)),， 而 bi 和 oj 
是 可 观测 单位 和 潜在 单位 的 偏差 。 在 给 定数 据 生成 过 程 py 的 情况 下 ,必须 优化 RBM 以 
使 得 似 然 p(x; 9) 最 大 化 。 跳 过 所 有 中 间 步 又 《可 以 在 上 述 论文 中 找到 )， 我 们 可 以 证 明 以 
下 内 容 : 









































万 (元 =1|B)=0o (5, wh +B) 
ph =1|7)=0 (Dw, +6)) 


在 前 面 的 公式 中 ，o(*) 是 Sigmoid 函数 。 给 定 这 两 个 表达 式 ， 我 们 就 可 以 得 出 (省 略 操 
作 ) 对 数 似 然 相对 于 所 有 可 学 习 变 量 的 梯度 : 
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VL(O;x)=p(h) =1|7)% — p(x;0)p(h, =1|7)%, 
ViL(B:R) = 5, pr:O, 


Vi L(O;7) =p(h,=1 


x)— >, p(x;0)p(h,=1|7) 












































值 求 和 。 这 显然 是 


Guide to Training Restricted Boltzmann Machines 中 ) 提出 了 一 














Divergence) 的 






































法 ， 此 入 














很 容易 理解 所 有 梯度 的 第 一 项 都 非常 容易 计 外 









































' 称 








， 而 第 二 项 都 需要 对 所 有 可 能 的 可 观测 
个 无 法 以 封闭 的 形式 解决 的 难题 。 出 于 这 个 原 


因 ，Hinton (在 4 Practical 
为 对 比 发 散 〈Contrastive 








法 可 用 于 找到 近似 解 。 对 这 种 算法 的 解释 需要 了 解 马 尔 可 夫 链 





的 知识 (这 不 是 先决 条 件 )， 但 是 我 们 可 以 总 结 出 这 种 策略 ， 即 它 通过 有 限 (和 少量 〉 的 采 




















































































































































































































































































































样 步 又 计算 梯度 的 近似 值 (一般 来 说 ,一 个 步 又 就 足以 获得 良好 的 结果 )。 这 种 方法 可 以 非 
常 有 效 地 训练 RBM， 并 使 深度 置信 和 网络 易于 使 用 且 极 其 有 效 。 
8.4.2 ”深度 置信 网 络 

DBN 是 基于 RBM 的 堆 释 模型 。 通 用 的 DBN 结构 如 图 8-10 所 示 。 
一 层 包 合 可 见 单元 , 而 其 余 所 有 单元 都 , 六 天 
是 潜在 单元 。 在 无 监督 场景 中 ,我 们 的 目标 让 本 
是 学 习 未 知 分 布 ， 找 出 样本 的 内 部 表示 形 和 
式 。 实 际 上 ， 当 潜在 单元 的 数量 小 于 输入 单 his hs ee ns 
元 的 数量 时 , 模型 将 学 习 如 何 使 用 较 低 维 子 = 
空间 对 分 布 进 行 编码 .Hinton 和 Osindero( 在 
Fast Learning Algorithm for Deep Belief Nets hs hs … hm 
中 ) 提出 了 一 种 循序 渐进 的 训练 程序 〈 是 通 | 
常 实现 ), 每 对 层 被 视 为 一 个 RBM 并 且 通 过 hi ED 
使 用 对 比 发 散 算 法 来 训练 。 一 旦 训练 了 
RBM 隐藏 居 就 成 为 后 续 RBM 的 可 观测 层 ， 
并 且 该 过 程 一 直 持 续 到 最 后 一 层 。 因 此 ， Ne 
DBN 开发 了 一 系列 内 部 表示 这 就 是 为 什 。@@@ Xo (x, 
么 它 被 定义 为 深度 网 络 )， 其 中 每 个 级 别 都 加 
在 较 低 级 别 的 功能 上 进行 训练 。 图 8-10 通用 的 DBN 结构 






































不 可 能 使 用 卷 积 单位 )。 























而 且 ， 输 出 不 是 输入 的 
节 中 讨论 的 公式 ， 如 果 有 必要 反 转 过 程 〈 即 给 定 




















该 过 程 与 变 分 自 编码 器 没有 什么 不 同 ， 但 在 这 种 情况 下 ， 模 型 的 结构 更 加 严格 例如 














重建 ， 而 是 内 部 表示 。 因 此 ， 考 虑 到 8.4.1 
内 部 表示 ， 获 得 输入 )， 则 必须 应 用 以 下 公 
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WW 

















式 ， 从 最 顶层 进行 采样 : 








pG-1D-a| Dw +B | 


当然 ， 我们 必须 向 后 重复 该 过 程 ， 直 到 达到 实际 的 输入 层 为 止 。 DBN 非常 强大 《例如 
在 天 体 物理 学 领域 的 几 个 科学 应 用 ), 它们 的 结构 不 像 其 他 更 新 的 模型 那样 灵活 ， 且 复杂 性 
通常 更 高 ， 因 此 我 总 是 建议 从 较 小 的 模型 开始 ， 只 有 在 最 终 精度 不 足以 满足 特定 目的 时 才 
增加 层 数 或 神经 元 数量 。 


8.4.3 无 监督 DBN 示例 












































































































































在 本 例 中 ， 我 们 要 使 用 DBN 来 查找 MNIST 数据 集 的 低 维 表示 。 由 于 这 些 模型 的 复杂 
度 很 容易 增加 ， 我 们 将 过 程 限制 为 500 个 随机 样本 。 该 实现 基于 深度 置信 和 网络 包 ， 它 同时 
支持 NumPy 和 TensorFlow。 在 前 一 种 情况 下 ， 我们 必须 从 dbn 包 导 入 类 (名 称 保持 不 变 )， 
而 在 后 一 种 情况 中 ， 包 是 dbn.tensorflow。 在 这 个 例子 中 ， 我 们 将 使 用 NumPy 版 本 ， 该 版 
本 的 要 求 较 少 ， 但 也 建议 读者 尝试 使 用 TensorFlow 版 本 。 


让 我 们 从 加 载 和 规范 化 数据 集 开 始 ， 如 下 所 示 : 











































































































import numpy as np 


from sklearn.datasets import load digits 
from sklearn.utils import shuffle 


nb_ samples = 500 


digits = load digits() 


X train = digits['data'] / np.max (digits['data']) 
Y train = digits['target'] 


x train, Y train = shuffle(X train, Y train, random state=1000) 
X train = X train[0:nb samples] 
Y train = Y train[0:nb samples] 





我 们 现在 可 以 用 以 下 结构 实例 化 UnsupervisedDBN 类 。 
。 64 个 输入 神经 元 (从 数据 集中 隐 式 检测 到 )。 


。 32 个 sigmoid 神经 元 。 
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。 32 个 sigmoid 神经 元 。 


。 16 个 sigmoid 神经 元 。 














因此 ， 最 后 一 个 表示 由 16 个 值 (原始 维 度 的 四 分 之 一 ) 组 成 。 我 们 将 学 习 率 设置 为 




















n=0.025， 每 批 次 设置 16 个 样本 (当然 ,为 了 尽量 减少 重 凡 
































下 代码 段 初始 化 并 训练 模型 : 


from dbn import UnsupervisedDBN 





























误差 ， 请 你 检查 其 他 配置 )。 以 








unsupervised dbn = UnsupervisedDBN (hidden layers structure=[32, 32, 16], 


learning rate rbm=0.025, 


n _ epochs rbm=500, 


batch size 


=16, 


activation function='sigmoid') 


XxX dbn = unsupervised dbn.fit transform(X train) 








在 训练 过 程 结束 时 ， 我 们 可 以 在 将 其 投影 到 二 维 
采用 t-SNE 算法 ， 该 算法 可 以 保证 找到 最 相似 的 低 维 分 布 























from sklearn.manifold import TSNE 








tsne = TSNE (n components=2, perplexity=10, random state=1000) 





xX tsne = tsne.fit transform(X dbn) 











无 监督 DBN 输出 表示 的 t-SNE 图 如 图 8-11 所 示 。 














空间 之 后 分 析 其 分 布 。 通 常 ， 我 们 将 
2 





如 你 所 见 ， 大 多 数 块 都 有 很 强 的 内 聚 性 ， 这 表明 数字 的 特殊 属性 已 成 功 表示 在 低 维 空 














间 中 。 在 茶 些 情况 下 ， 同 一 个 数字 组 被 分 成 更 多 的 聚 类 ， 



































一 、 








数字 8 的 样本 组 成 的 〈 用 正方 形 表 示 )。 很 容易 理解 ， 一 些 格式 错误 的 二 ; 















































但 一 般 来 说 ， 噪 声 〈 隔 离 ) 点 的 
数量 非常 少 。 例 如 包含 数字 2 的 组 用 符号 x 表 示 。 大 多 数 样本 的 范围 为 0 < xo < 30,x1i < -40， 
日 一 个 子 组 位 于 -10 < xi < 10 的 范围 内 。 如 果 我 们 检查 这 个 小 聚 类 的 邻 域 ， 它 们 是 由 代 
































制 与 格式 错误 的 





八进制 非常 类 似 ， 这 证 明了 原始 聚 类 的 分 裂 是 正确 的 。 从 统计 学 角度 来 看 ， 解 释 的 方差 可 









































能 会 产生 不 同 的 影响 。 在 茶 些 情况 下 ， 一 些 分 量 足 以 确定 






































不 可 能 的 。 当 属于 不 同类 别 的 样本 显示 出 相似 性 时 , 我 们 只 能 


























个 类 的 特殊 功能 ， 但 这 通常 是 
通过 次 成 分 的 差异 进行 区 分 。 











在 处 理 包含 几乎 (或 甚至 部 分 ) 重 全 的 样本 的 数据 集 时 ， 这 种 考虑 非常 重要 。 在 进行 降 维 

















时 ， 数 据 科学 家 的 主要 任务 不 是 检查 整体 解释 的 方差 ， 而 是 要 了 解 是 














响 的 区 域 。 在 这 种 情况 下 ， 我 们 可 以 定义 多 个 检测 规则 《例如 当 检 





























和 否 存在 受降 维 负面 影 














fF 本 xiER 








或 x E Rs x 
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其 有 yj 标签 时 ) 或 者 尝试 避免 创建 此 分 段 的 模型 (建议 你 测试 更 复杂 的 DBN 和 更 高 维度 


的 输出 表示 )。 
一 个 eee 全 
eg Se See 
的 ” 2 。 个 3 的 
40 和 2 了 了 会 A 
中 
ee I 人 中 二 = 3 
Ft 中 全 E 和 全 F. 0 
+++ 4 二 四 人 和 夺 全 全 全 二 二 es 
20 中 中 中 和 全 A 个 是 a 
到 < Pe 4 @ 四 “4 BD 
. i 4 ®e NA 局 444 
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会 Class9 
-40 -20 . 0 20 40 
图 8-11 无 监督 DBN 输出 表示 的 t-SNE 图 
士 
8.5 总 结 
在 本 章 中 ， 我 们 讨论 了 一 些 用 于 解决 无 监督 任务 非常 常见 的 神经 模型 。 自 编码 器 允许 
你 查找 数据 集 的 低 维 表示 形式 ， 而 不 会 对 其 复杂 性 进行 特定 限制 。 特 别 地 ， 深 度 卷 积 网 络 





的 使 用 有 助 于 检测 和 学 习 高 层次 和 低层 次 的 几何 特征 , 当 内 部 代码 也 比 原始 维度 短 得 多 时 ， 
这 可 以 使 重建 非常 精确 。 我 们 还 讨论 了 如 何 为 自 编码 器 添加 稀疏 性 ， 以 及 如 何 使 用 这 些 模 


























型 对 样本 进行 降 噪 。 标 准 自 编码 器 的 一 个 略 有 不 同 的 变 体 是 变 分 自 编 码 器 ， 
模型 ， 可 以 提高 学 习 数据 生成 过 程 的 能 力 ， 从 而 绘制 数据 集 。 


Sanger 和 Rubner-Tavan 网 络 是 神经 模型 ， 能 够 在 不 进行 任何 统计 预 处 到 


























它 是 一 种 生成 


的 情况 下 提取 








数据 集 的 前 个 主 成 分 。 它 们 还 具有 以 在 线 方式 自然 工作 的 优势 (而 标准 PCA 通常 需要 整 
个 数据 集 ， 即 使 存在 性 能 稍 差 于 离线 算法 的 增 量 变 体 )， 以 及 按 降序 提取 分 量 的 优势 。 我 们 
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讨论 的 最 后 一 个 模型 是 无 监督 环境 中 的 DBN。 我 们 描述 了 它们 的 构建 块 一 一 RBM 
特性 ， 然 后 分 析 了 这 些 模型 如 何 学 习 数 据 生 成 过 程 的 内 部 通常 是 低 维 〉 表示 。 





























在 第 9 章 中 ， 我 们 将 讨论 其 他 神经 模型 一 一 生成 式 对抗 网 络 和 自 组 织 映射 。 




















学 习 输入 分 布 并 生成 从 中 抽取 的 新 样本 ， 而 后 者 则 基于 大 脑 某 些 特定 区 域 的 功能 ， 





它们 以 接受 特定 的 输入 模式 。 


8.6 ”问题 








1. 在 自 编码 器 中 ， 编 码 器 和 解码 器 必须 在 结构 上 对 称 。 
























































2. 根据 自 编码 器 生成 的 代码 ,给 定数 据 集 蕊 及 其 变换 7， 

















所 有 信息 。 正 确 吗 ? 
3， 代码 ze (0, DIs 的 总 和 是 (z)=36， 那 么 它 稀疏 吗 ? 
4. 如 果 st4(z)=0.03， 代 码 稀疏 吗 ? 

















5. Sanger 网 络 需 要 协 方差 矩阵 列 作为 输入 向 量 。 正 确 吗 ? 
6. 我 们 如 何 确定 Rubner-Tavan 网 络 提取 的 每 个 分 量 的 重要 性 ? 
































7. 给 定 一 个 随机 和 向量， 万 E 娘 ” (mm 是 DBN 的 输出 维 数 )， 是 否 可 以 确定 最 可 和 有 





应 输入 样本 ? 








的 生成 
前 者 可 以 
并 训练 

正确 吗 ? 
可 以 在 了 中 找到 关中 包含 的 
EB 的 相 


由 
必 史 全 间 轴 央 加 加 辐 吉 习 吉 久 寺 加 浊 疾 移送 隐 用 吉 


























在 这 一 章 中 , 我 们 再 讨论 一 些 非常 流行 的 神经 模型 ， 就 将 结束 无 监督 学 习 的 整个 过 程 ， 
这 些 模型 可 用 于 执行 数据 生成 过 程 并 可 从 中 抽取 新 的 样本 。 此 外 ， 我 们 将 分 析 自 组 织 映 射 
的 功能 ， 这 些 功 能 可 以 调整 样本 的 结构 ， 使 特定 单元 对 不 同 的 输入 模式 做 出 响应 。 


本 章 将 着 重 讨论 以 下 主题 。 


。 生成 式 对 抗 网 络 (Generative Adversarial Networks，GAN )。 


































































































。 深度 卷 积 GAN (Deep Convolutional GAN, DCGAN)。 
e Wasserstein GAN (WGAN), 


。 自 组 织 映 射 (Self-Organizing Maps，SOM)。 


9.1 技术 要 求 








本 章 中 的 代码 需求 如 下 。 
。 Python 3.5+ (强烈 建议 使 用 Anaconda 的 发 行 版 本 )。 
2 





nm SciPy 0.19+。 
m NumPy 1.10+。 
m scikit-learn 0.20+。 


m pandas 0.22+。 
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mn Matplotlib 2.0+。 
m Seaborn 0.9+。 
m TensorFlow 1.5+。 
sm Keras 2+《〈 仅 用 于 数据 集 实 用 程序 功能 )。 
示例 代码 可 以 在 本 书 配套 的 代码 包 中 找到 。 
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这 些 生 成 模型 是 由 Goodfellow 和 其 他 研究 人 员 提 出 的 (参见 Generative Adversarial 
Networks )， 目 的 是 利用 对 抗 训 练 的 力量 ， 以 及 深度 神经 网 络 的 灵活 性 。 在 不 需要 太 多 技术 
细节 的 情况 下 , 我 们 可 以 引入 对 抗 训练 的 概念 , 将 其 作为 一 种 基于 博弈 论 的 技术 进行 介绍 ， 
的 是 优化 两 个 相互 对 抗 的 代理 。 当 一 个 代理 试图 欺骗 其 对 手 时 ， 男 一 个 代理 必须 学 习 
如 何 区 分 正确 的 和 伪造 的 输入 。 特 别 地 ，GAN 是 一 个 分 为 两 个 明确 定义 组 件 的 模型 。 

。 生成 器 。 

。 鉴别 器 (也 称 为 评价 器 )。 

让 我 们 首先 假设 有 一 个 数据 生成 过 程 pow 和 一 个 从 中 抽取 的 m 个 样本 的 数据 集 承 : 

了 X=, 石 ,…, 大 } ,其 中 区 eR” 


为 简单 起 见 ， 假 设 数据 集 具 有 单个 维度 。 但 是 ， 这 不 是 约束 也 不 是 限制 。 生 成 器 是 
一 个 参数 化 函数 “通常 使 用 神经 网 络 )， 它 由 一 个 噪声 样本 输入 ， 并 提供 n 维 向 量 作为 


输出 : 







































































了 













































































































































































六 =8(3;0.)， 其 中 多 eR” 且 z ~LCLD 


换 名 话说， 生成 器 是 在 样本 xE 界 "上 将 均匀 分 布 转换 为 另 一 个 分 布 p(x)。GAN 的 主 
要 目标 如 下 : 





Ps(X) > Paaal™) 
自 编码 器 是 通过 直接 训练 整个 模型 来 实现 这 样 的 目标 的 ， 与 其 相反 ， 在 GAN 中 是 通 
过 生成 器 和 鉴别 器 之 间 进 行 的 博弈 来 实现 目标 的 ， 且 后 者 是 另 一 个 参数 化 函数 ， 其 采用 样 
本 xiSW”"， 并 返回 概率 : 


























































































































p;=4d(T;0,), 其 中 eR” 且 Ps(0.D 
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鉴别 器 的 作用 是 区 分 从 pawa 返 回 大 概率 ) 和 g 〈230。)〈 返 回 小 概率 ) 生成 的 样本 。 
然而 ， 由 于 生成 器 的 目标 是 增强 重 现 pa 的 能 力 ， 因 此 它 的 作用 是 学 习 如 何 使 用 从 几乎 完 























美的 数据 生成 过 程 中 再 现 的 样本 来 欺骗 鉴别 器 。 而 鉴别 器 的 目标 是 最 大 化 以 下 条 件 : 


然而 ， 这 是 一 个 极 小 极 大 游戏 (Minimax Game)， 这 意味 着 两 个 对 


试 最 小 化 (4 





实 隔 
取 的 档 
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本 ， 








和 












































log(d(FO)) 洲 五 ~ pa 
log(1 ~ d(g(z; 0, ); 0, ) otherwise 


| 





手 4 和 B， 必 须 尝 
标 是 最 小 化 先前 双 






































) 和 最 大 化 (8B) 同样 的 目标 。 在 这 种 情况 下 ， 生 成 器 的 











倍 成 本 函数 的 第 二 项 : 





log(1—d(g(z;0,);0,)) 


当 两 个 代理 都 成 功 地 优化 了 目标 时 ， 鉴 别 器 将 能 够 区 分 从 paars 和 异常 值 中 
并 且 生 成 器 能 够 输出 属于 pu 的 合成 样本 。 然 而 ， 必 须 清楚 的 是 ， 我 们 可 

























































































以 通过 使 用 单个 目 











标 来 表达 问题 ， 并 且 训 练 过 程 的 目标 是 找 出 最 佳 参数 集 0 = {04 be}， 




















从 而 使 鉴别 器 将 其 最 大 人 
在 实践 中 ， 该 过 程 
可 以 表示 如 下 : 





标 




















这 样 日 











练 


二 小 





< 











的 策略 了 。 在 GAN 的 情况 中 ， 这 种 条 们 
器 就 可 以 继续 
策略 ， 因 为 它 可 以 完美 地 区 分 paara 和 人 铂 
速度 是 不 对 称 的 。 虽 然 生 成 器 通常 需要 更 多 次 迭代 ， 但 鉴别 器 可 以 非常 快速 地 
而 ,这 种 过 早 收敛 对 于 整体 性 能 来 说 可 
生成 器 也 达到 了 最 但 






































， 同 时 使 生成 器 将 其 最 小 化 。 两 个 代理 必须 同时 进行 优化 ， 但 
交替 的 〈 例 如 生成 器 、 鉴 别 器 、 生 成 器 等 )。 在 更 紧凑 的 形式 中 ， 目 














日 
人 碟 



































V(g,d)=E:., 


~ Paata 


[log(d(x;@ D+ E;, [log(l—d(g(x;0.);0,))] 


noise 





因此 ， 我 们 可 以 通过 解决 以 下 问题 使 参数 集 达 到 最 佳 : 





Oy = aremaxa areming V (8,d) 


归 据 博弈 论 ， 这 是 一 个 接受 纳什 均衡 (Nash Equilibrium ) 点 的 非 合作 博弈 。 当 满足 
的 条 件 时 ， 如 果 我 们 假设 两 个 玩家 都 知 














、 认 


道 对 手 的 策略 ， 那 么 他 们 就 没有 理由 改变 自己 
F 意 味 着 一 旦 达到 均衡 (甚至 只 是 理论 上 的 )， 生 成 

FE 本 ， 并 确保 它们 不 会 被 鉴别 器 错误 分 类 。 同 时 ， 鉴 别 器 没有 理由 改变 
F 何 其 他 分 布 。 从 动态 的 角度 来 看 ， 两 个 组 件 的 训 
性 敛 。 然 

能 是 非常 危险 的 。 事 实 上 ， 由 于 鉴别 器 提供 的 反馈 ， 
状态 。 不 吉 的 是 ， 当 梯度 非常 小 时 ， 这 种 贡献 变 得 可 以 忽略 不 计 ， 













































































输出 检 

































































显 





























而 易 见 的 结果 是 生成 器 错失 了 提高 其 输出 更 好 样本 的 能 力 的 机 会 《例如 当 样 本 是 图 像 时 ， 


















































即使 使 用 复杂 的 体系 结构 ， 其 质量 也 可 能 保持 在 非常 低 的 水 平 )。 这 种 情况 并 不 取决 于 生成 
固有 容量 的 不 足 ， 而 是 取决 于 一 旦 鉴别 器 收敛 (或 非常 接近 )， 生 成 器 开始 应 用 的 有 限 次 








器 
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校正 。 在 实践 中 ， 由 于 没有 具体 的 规则 ， 我 们 唯一 有 效 的 建议 是 在 训练 过 程 中 检查 两 个 损 
失 函 数 。 如 果 鉴 别 器 损失 下 降 得 太 快 ， 而 生成 器 的 损失 仍然 很 大 ， 则 我 们 通常 优选 的 是 将 















































更 多 的 生成 器 训练 步骤 与 单个 鉴别 器 步骤 进行 交错 。 
9.2.1 _ GAN 分 析 


假设 我 们 有 一 个 通过 使 用 数据 集 (从 panCo) 中 提取 ) 来 进行 
Goodfellow 等 人 证 明 ， 给 定 生成 器 分 布 ps(x)， 最 佳 鉴 别 器 如 下 : 









































Paata (7) 


元 人 三 
om Paaa(X) + p(X) 








全 局 目标 可 以 通过 使 用 最 佳 鉴别 器 重 写 : 














V(ds)=E: 


X~ Paqata 














我 们 现在 可 以 展开 前 面 的 表达 式 : 




















适当 训练 的 GAN 。 


[log(d,, (x;0)]+E,, [log(l— d(x;0,))] 


V d 一 已 1 Paaa(X) | -EF 1 | ps(X) | 
Ee ce ed ee 





现在 ， 让 我 们 考虑 分 布 a 和 4b 之 间 的 Kullback-Leibler 散 度 : 


(Pa)al = Dao = 人 区 | 








考虑 到 前 面 的 表达 式 ， 经 过 一 些 简单 的 操作 后 ， 我 们 很 容易 证 明 以 下 等 

















opt 


2 





因此 , 该 目标 可 以 表示 为 数据 生成 过 程 和 生成 器 分 布 之 间 的 Jensen-Shannon 散 度 。 划 
与 Kullback-Leibler 散 度 的 主要 区 别 在 于 0 三 Djs(paaiallps) 三 log(2)， 并 且 它 是 对 称 的 。 这 种 
E 新 构造 并 不 令 人 惊讶 ， 因 为 GAN 的 真正 目标 是 成 为 可 以 成 功 重 现 pasw 的 生成 模型 ， 如 


















































mh 











9-1 所 示 。 


页 





式 : 


Pasa +P 1 Pp 
PC )+log(2) -Spa au le 全] palm 1- Djs (Puaaia | p,) 























开 将 其 











初始 分 布 通常 与 目标 分 布 完全 不 同 。 因 此 ，GAN 必须 将 其 重 造 




















重 琶 完成 时 ，Jensen-Shannon 散 度 达到 最 小 值 ， 并 且 优 化 完成 。 然 





























厅 ， 











向 Pdata 转移 。 当 


正如 我 们 将 在 下 文 


























中 讨论 的 那样 ， 由 于 Jensen-Shannon 散 度 的 特性 ， 这 个 过 程 并 不 总 是 如 此 平稳 地 运行 ， 并 












































且 GAN 将 会 达到 与 理想 最 终 配 置 相距 其 远 的 次 优 最 小 值 。 
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一 一 Original data generating process 
一 一 Generative model distribution 





Jensen-Shannon divergence reduction 


px) 








-4 -2 0 2 4 6 8 
xX 














图 9-1 GAN 的 目标 是 将 生成 的 模型 分 布 朝 paw 的 方向 移动 ， 以 试图 使 重 
模式 裔 溃 
给 定 概率 分 布 ,最 常 出 现 的 值 (在 离散 情况 下 ) 或 对 应 于 概率 密度 函数 最 大 值 的 值 (在 
连续 情况 下 )， 被 称 为 模式 。 如 果 我 们 考虑 后 一 种 情况 ,PDF 具有 单一 最 大 值 的 分 布 称 为 单 
模 ; 当 有 两 个 局 部 最 大 值 时 ， 它 被 称 为 双 模 ， 依 此 类 推 (通常 ， 当 存在 多 种 模式 时 ， 分 布 
简称 为 多 模 )， 如 图 9-2 所 示 。 
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Ps 








































































































Unimodal distribution Bimodal distribution 
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图 9-2 单 模 ( 左 ) 和 双 模 ( 右 ) 分 布 的 示例 
在 处 理 复 杂 数 据 集 时 ， 我 们 无 法 轻易 估计 模式 的 数量 。 但 是 ， 我 们 可 以 合理 假设 数据 
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生成 过 程 





业 


同一 基本 元 素 稍 
现在 ， 让 我 们 
Bb 些 样本 )。 模 式 的 























的 习 





是 多 模 的 。 有 时 ， 当 样本 
次 要 模式 。 但 一 般 来 说 ， 如 果 样 本 结构 不 同 ， 习 
作 修 改 ， 则 可 能 


假设 正在 处 理 面部 图 像 的 多 模 分 布 〈 例 如 我 们 将 在 9.2.2 节 
尼 ? 我 们 很 难 准 确 回 
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基于 


< 同 结构 时 ， 数 据 集 可 以 存在 一 个 3 












































有 单 











内 容 是 什么 1 








模式 ， 但 这 不 是 需要 考虑 的 有 


b 么 单一 模式 的 概率 非常 





E 导 模式 和 几 个 
低 〈 当 然 ， 如 果 对 
效 情况 )。 

讨论 示例 中 
































答 这 个 问题 ， 








且 很 容易 到 








最 大 数据 生成 过 程 的 面部 应 包含 数据 集中 最 常见 的 元 素 〈 例 如 如 果 80% 的 人 有 胡子 ， 我 们 





昌 


可 以 合理 

我 们 在 使 月 
最 终 配 置 ， 
的 原因 非常 难以 分 析 
































极 小 极 大 游戏 时 会 发 生 这 种 避 





这 种 情况 也 可 能 大 
由 了 
样本 。 
据 4 

















这 

















其 中 生成 器 在 某 利 


成 过 程 的 一 小 部 分 区 域 的 ; 
在 梯度 方面 ， 由 鉴别 器 提 


地 假设 模式 将 包含 胡子 这 个 元 素 )。 








昌 GAN 时 过 到 的 最 著名 和 最 棘手 的 问题 之 
冻结 并 继续 提供 与 输出 相同 类 型 
E 论 知识 )， 但 我 人 
况 。 当 我 们 要 训练 两 个 不 同 的 分 量 时 ， 即 
E 几 次 迭代 之 后 发 生 , 鉴别 器 对 于 最 常见 的 模式 变 得 非 
F 生 成 器 被 训练 以 欺骗 鉴别 器 ， 实 现 该 目标 的 最 简单 方法 是 简单 地 避免 远离 模式 的 所 有 
行为 增加 了 鉴别 器 的 选择 性 ， 并 创建 了 一 个 反馈 过 程 


模式 周围 
只 有 到 


SS 
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FE 实 上 























大 态 。 
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样本 不 需要 任何 调整 。 


它们 不 会 将 鉴别 器 暴露 给 新 的 、 可 能 有 效 的 档 








的 是 ， 现 在 还 没有 可 月 














就 是 模式 
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可 以 理 和 

















6 > 由 
朋 ) 页 ， 


钾 为 什么 如 果 我 们 习 
葛 保 说 
常 有 选择 


TE 


蕊 涉及 次 优 
的 样本 。 这 种 悍 
EE 新 
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‘人心 








E 了 纳什 均衡 ， 
性 。 当 然 ， 
































， 使 








j 于 优化 生成 器 的 信息 很 快 变 得 非常 稀少 ， 因 





为 一 方 














于 避免 该 问题 的 全 














(WGAN) 
局 限 性 J 














中 ， 重 要 的 是 不 熟悉 这 些 模 型 的 读者 必须 意识 到 


在 这 一 点 上 ， 我 们 可 以 使 


9.2.2 ”深度 卷 积 





广 。 在 某 些 情况 下 >» i 





bl EE 
用 可 


区 可 


看 ， 当 生成 器 开始 避免 所 有 那些 p(x) 不 接近 最 大 值 的 样本 时 ， 


GAN 陷入 只 存在 
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为 最 常见 的 








本， 因此 梯度 将 保持 非常 4 

































































GAN 示例 


TensorFlow ii 


局 策略 ， 但 在 本 草 中 我 们 将 讨 
风险 而 提出 的 方法 之 一 。 特 别 地 ， 我 们 将 把 注意 力 集 
致 GAN 在 没有 大 梯度 的 情况 下 达到 


在 Jensen-Shannon 散 度 





威 
从 


\， 直 到 为 零 。 遗 
论 为 降低 模式 月 演 
的 
在 本 章 











次 优 配置 。 

































































它们 的 风险 ， 并 且 能 够 在 模式 骨 溃 时 识别 它们 。 
行 实际 操作 并 模拟 真实 的 GAN。 


我 们 现在 可 以 基于 Unsupervised Representation Learning with Deep Convolutional 


Generative Adversarial Networks 


可 以 快速 被 训练 。 





该 数据 集 小 到 








FP 提 出 的 模型 ， 以 及 Olivetti 




















让 我 们 首先 加 载 数据 集 并 规范 化 〈-1，1) 中 的 值 ， 如 下 所 示 : 














from s 


klearn.datasets import fetch olivetti faces 


用 部 数据 集 来 实现 DCGAN， 
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faces = fetch olivetti faces (shuffle=True, random state=1000) 


xX train 


XxX train 


width = XxX train.shape 


faces['images'] 
{27%0 ta) Ls 


[1] 


height = X train.shape[2] 


一 些 面部 样本 如 图 9-3 所 示 。 


四 国 男 国画 回国 国 图 车 


图 9-3 从 Olivetti 面部 数据 集中 采集 的 面部 样 
即使 所 有 面部 的 结构 都 类 似 ， 眼 睛 
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(有 和 没有 眼镜 )、 鼻 子 和 嘴巴 的 形状 也 会 存在 细微 














差别 。 此 外 ， ee NE te A Rei 


因此 ， 我 们 期 望 一 个 多 模 分 布 ， 















































re a 





























E 上 共有 对 应 于 平均 面部 结构 的 主 模式 以 及 对 应 于 具有 特 




















此 时 ， 我 们 可 以 定义 主 常量 ， 如 下 所 示 : 





nb_samples = 400 
code lengthn = 512 
nb epochs = 500 
batch size = 50 


nb iterations = int (nb samples / batch size) 





我 们 有 400 个 64 像素 x64 像素 的 灰 度 样本 (对 应 于 每 个 样本 有 4096 个 分 量 )。 在 这 个 





























例子 中 ， 我 们 选择 使 用 具有 5 











小 为 50。 这 些 值 不 是 基于 黄金 法 则 ， 





























12 个 分 量 





因为 (特别 是 对 于 GAN 而 言 ) 我 们 几乎 不 可 能 知道 


的 噪声 代码 向 量 ， 对 模型 进行 500 次 迭代 ， 批 次 大 























哪个 设置 将 产生 最 佳 结果 。 因 此 ， 像 往常 一 样 ， 我 强烈 建议 在 做 出 决定 之 前 检查 不 同 的 超 











参数 集 。 








当 训练 过 程 不 太 长 时 ， 我 们 可 以 使 用 一 组 统一 采样 的 超 参数 来 检查 生成 器 和 鉴别 器 的 




















并 重新 训 











间 的 差异 可 以 忽略 不 计 。 当然， 


考虑 到 这 





或 TPU) 才能 进行 全 面 搜索 。 











平均 损失 (例如 批 次 大 小 Ee {20, 50, 100, 200} )。 如 果 最 佳 值 存在 于 (50，100) 中 ， 那 么 一 
个 好 的 策略 是 提取 一 些 随 机 值 


| 练 模型 。 我 们 可 以 重复 这 样 的 过 程 ， 直 到 采样 值 之 
文 些 模型 的 复杂 性 ,只 能 使 用 专用 硬件 〈 即 多 个 GPU 
































因此 , 另 一 个 建议 是 从 测试 过 的 配置 开始 (即使 上 下 文 不 同 )， 








并 应 用 小 的 修改 ， 以 便 针 对 特定 任务 优化 它们 。 在 这 个 例子 中 ， 我 们 根据 原始 文件 设置 了 
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许多 值 ， 但 是 我 建议 读者 在 更 改 后 重新 运行 代码 并 观察 差异 。 
现在 ， 我 们 可 以 基于 以 下 结构 为 生成 器 定义 DAG 。 
。 具有 1024 (4x4) 个 滤波 器 、(1x1) 步 幅 、 有 效 的 填充 和 线性 输出 的 2D 卷 积 。 


。 批 处 理 规范 化 和 泄漏 ReLU 激活 〈 当 输入 值 为 负 时 更 高 效 。 事 实 上 ， 当 x < 0 时 ， 
标准 ReLU 具有 空 梯度 ， 而 泄漏 ReLU 具有 人 允许 轻微 修改 的 恒定 小 梯度 )。 


。 具有 512 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 

。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 256 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 128 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 1 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 双 曲 正切 输出 的 2D 卷 积 。 
生成 器 的 代码 显示 如 下 : 
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import tensorflow as tf 


def generator(z, is training=True): 
with tf.variable scope('generator'): 
conv 0 = tf.layers.conv2d transpose (inputs=z, 
filters=1024, 
kernel size=(4, 4), 
padding="'valid') 
b conv 0 = tf.layers.batch normalization (inputs=conv_0, 


training=is training) 


conv 1 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 0), 
filters=512, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b conv 1 = tf.layers.batch normalization (inputs=conv 1， 


training=is training) 


并. 
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9.2 


conv 2 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 1), 
filters=256, 


kernel size=(4, 4), 
strides=(2, 2); 
padding="'same') 


b _ conv 2 = tf.layers.batch normalization (inputs=conyv 2, 


training=is training) 


conv 3 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 2), 
filters=128, 


kernel size=(4, 4), 
strides=(2, 2);, 
padding="'same') 


b_ conv 3 = tf.layers.batch normalization (inputs=conv_ 3， 


training=is training) 


conv 4 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 3), 
filters=1, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


return tf.nn.tanh (conv_4) 


a 


代码 很 简单 ， 但 是 有 必要 阐明 对 变量 范围 上 下 文 的 需求 (通过 命令 tf.variable_scope 
(generator) 定 义 )。 由 于 我 们 需要 以 替代 方式 训练 模型 ， 因 此 在 优化 生成 器 时 ， 只 需 更 新 其 
。 因 此 ， 我 们 定义 了 命名 范围 内 的 所 有 层 ， 这 些 层 允许 强制 优化 器 仅 处 理 所 有 可 训练 
的 子 集 。 
鉴别 器 的 DAG 基于 以 下 对 称 结构 。 
。 有 具有 128 〈4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 泄漏 的 ReLU 输出 的 2D 
卷 积 。 
。 具有 256 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
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。 批 处 理 规范 化 和 泄露 的 ReLU 激活 。 
。 具有 512 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 


a 















































。 批 处 理 规范 化 和 泄露 的 ReLU 激活 。 
。 具有 1024 〈4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄露 的 ReLU 激活 。 


。 具有 1(4x4) 个 滤波 器 、(2x2) 步 幅 、 有 效 的 填充 和 线性 输出 的 2D 卷 积 (输出 预 
计 为 sigmoid， 可 以 表示 概率 ， 但 我 们 将 直接 在 损失 函数 内 部 执行 此 变换 )。 


鉴别 器 的 代码 如 下 : 























































































































import tensorflow as tf 


def discriminator (x, is training=True, reuse variables=True): 
with tf.variable scope('discriminator', reuse=reuse variables): 
conv 0 = tf.layers.conv2d (inputs=x, 
filters=128, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


conv 1 = tf.layers.conv2d(inputs=tf.nn.leaky relu(conv 0), 
filters=256, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b conv 1 = tf.layers.batch normalization (inputs=conv 1， 


training=is training) 


conv 2 = tf.layers.conv2d(inputs=tf.nn.leaky relul(b conv 1), 
filters=512, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b_ conv 2 = tf.layers.batch normalization (inputs=conyv 2, 


training=is training) 


conv 3 = tf.layers.conv2d(inputs=tf.nn.leaky relu(b conv 2), 
filters=1024, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


让 
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D_conv 3 = tf.layers.batch normalization (inputs=conv_ 3， 


training=is training) 


conv 4 = tf.layers.conv2d(inputs=tf.nn.leaky relu(b conv 3), 
filters=1, 

kernel size=(4, 4), 

padding="'valid') 


return conv 4 












































此 外 ， 在 这 种 情况 下 ， 我 们 需要 声明 一 个 专用 的 变量 范围 。 但 是 ， 由 于 鉴别 器 用 于 两 
个 不 同 的 情况 ( 即 真实 样本 的 评估 和 生成 样本 的 评 佑 )， 我 们 需要 在 第 二 个 声明 中 要 求 
该 变量 。 如 果 没 有 设置 这 样 的 标志 ， 则 每 次 调用 该 函数 都 将 对 应 于 不 同 的 鉴别 器 ， 产 4 
的 变量 集 。 


旦 声明 了 两 个 主 分 量 ， 我 们 就 可 以 初始 化 图 像 并 为 GAN 设置 整个 DAG， 如 下 所 示 : 
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import tensorflow as tf 


graph = tf.Graph() 


with graph.as default (): 
input x = tf.placeholder (tf.float32, shape= (None, width, height, 1)) 
input z = tf.placeholder (tf.float32, shape= (None, code lengtnh)) 
is training = tf.placeholder (tf.bool) 





gen = generator (z=tf.reshape (input z, (-1, 1, 1, code length)), 


is training=is training) 


discr 1 1 = discriminator(x=input x, is training=is training, 
reuse variables=False) 
discr 2 1 = discriminator(x=gen, is training=is training, 


reuse variables=True) 





loss d 1 = tf.reduce meanl 
tf.nn.sigmoid cross entropy with logits (labels=tf.ones like(discr 1 1), 





logits=discr 1 1)) 





loss d 2 = tf.reduce meanl 

tf.nn.sigmoid cross entropy with logits (labels=tf.zeros like(discr 2 1)， 
logits=discr 2 1)) 

loss d= loss dl + loss qd 2 





loss g = tf.reduce mean( 








tf.nn.sigmoid cross entropy with logits (labels=tf.ones like (discr 2 1), 
logits=discr 2 1)) 


variables g = [variable for variable in tf.trainable variables() if 
variable.name.startswith('generator')] 
variables d = [variable for variable in tf.trainable variables() if 


variable.name.startswith('discriminator')] 


with 
tf.control dependencies (tf.get collection (tf.GraphKeys .UPDATE OPS) ) : 
training step qd = tf.train.AdamOptimizer (0.0001, 








betal=0.5) .minimize (loss=loss d, var list=variables qd) 
training step g = tf.train.AdamOptimizer (0.0005, 
betal=0.5) .minimize (loss=loss g, var list=variables 9g) 





第 一 块 包含 占 位 符 的 声明 。 为 了 清楚 起 见 , 虽然 input x 和 input z 的 目的 很 容易 理解 ， 
但 是 is_training 可 能 不 太 明 显 。 此 布尔 标志 的 目标 是 允许 在 生产 阶段 禁用 批 处 理 规范 化 〔 它 
必须 仅 在 训练 阶段 有 效 )。 接 下 来 的 步骤 包括 声明 生成 器 和 两 个 鉴别 器 (它们 在 形式 上 是 相 
同 的 , 因为 变量 是 共享 的 , 但 是 一 个 用 真实 样本 提供 ， 另 一 个 必须 评估 生成 器 的 输出 )。 然 
后 定义 损失 函数 ， 这 些 函 数 基于 一 种 加 速 计算 并 提高 数值 稳定 性 的 技巧 。 

函数 tf.nn.sigmoid_cross_entropy_with logits() 接 受 logit (这 就 是 为 什么 我 们 没有 直接 将 
sigmoid 转换 应 用 于 鉴别 器 输出 )， 并 允许 我 们 执行 以 下 向 量 计算 : 


也 = 一 Xiubellog(C(Xioer )) a (1 Xiavet og(l OXiogir )) 


因此 ， 由 于 函数 loss d_10 是 真实 样本 的 损失 函数 ， 我 们 使 用 运算 符 tfones_like() 将 所 
有 标签 设置 为 等 于 1。 因 此 ，sigmoid 交叉 焙 的 第 二 项 变 为 空 ， 结 果 如 下 : 


Nal 
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Dlog(o(x,)) 


~ batch size 


相反 ， 函 数 loss_d_20 恰 好 需要 sigmoid 交叉 焙 的 第 二 项 。 因 此 ， 我 们 将 所 有 标签 设置 
为 0， 以 获得 损失 函数 : 


dl 


























| Slog( ox) 


~ batch Size 今 

相同 的 概念 适用 于 生成 器 损失 函数 。 接 下 来 的 步骤 需要 定义 两 个 Adam 优化 器 。 正 如 
我 们 之 前 解释 的 那样 ,我 们 需要 隔离 变量 ， 以 便 进行 交 蔡 训 练 。 因 此 , 现在 函数 minimize() 
都 包含 必须 更 新 的 损失 和 变量 集 。TensorFlow 官方 文档 中 建议 使 用 上 下 文 声明 tf.control_ 


d2 


















































Me 








dependencies(tf get_collection(tf. GraphKeys.UPDATE OPS))， 无 论 何 时 使 用 批 处 理 规范 化 ， 





























目标 是 仅 在 计算 均值 和 方差 之 后 才 允 许 执行 训练 步骤 〈 有 关 此 技术 的 更 多 详细 信息 ， 请 





查看 Accelerating Deep Network Training by Reducing Internal Covariate Shifi )。 

















此 时 ， 我 们 可 以 创建 一 个 会 话 并 初始 化 所 有 变量 ， 如 下 所 示 : 

















import tensorflow as tf 


session = tf.InteractiveSession (graph=graph) 
tf.global variables initializer() .run() 











旦 一 切 准 备 就 绕 后 ， 我 们 就 可 以 开始 训练 了 。 以 下 代码 段 显示 了 对 鉴别 器 和 生成 器 











执行 交 蔡 训练 的 代码 : 


import numpy as np 
samples range = np.arange (nb samples) 
for e in range (nb epochs): 

d losses = [] 


g_losses = [] 


for i in range (nb iterations): 





Xi = np.random.choice (samples range, size=batch size) 

X = np.expand dims (X train[Xi], axis=3) 

2 = np.random.uniform(-1.0, 1.0, size=(batch size, 
code lengtn)) .astype (np.float32) 


,dl1loss = session.run([training step d, loss dl], 
feed dict={ 
LNDUt. SX, 
9 
is training: True 
}) 
d losses.append(d loss) 


2 = np.random.uniform(-1.0, 1.0, size=(batch size, 
code lengtn)) .astype (np.float32) 


1 gloss = session.run([training step g, loss gl], 
feed dict={ 
ni oo bon: dD 
iNnpUt 2 2 
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is training: True 


}) 
g_losses.append(g loss) 





print('Epoch {}) Avg. discriminator loss: {} - Avg. generator loss: 
{} .format(e + 1, np.mean(d losses), np.mean(g losses))) 





在 这 两 个 步 又 中 ， 我 们 为 该 网 络 提供 一 批 真 实 图像 〈 在 生成 器 优化 期 间 不 会 使 有 用) 和 
均匀 采样 的 代码 Z， 其 中 每 个 分 量 为 z;~ U(-1, D)。 为 了 降低 模式 裔 溃 的 风险 ， 我 们 将 在 每 





























次 迭代 开始 时 对 集合 进行 打 乱 。 这 不 是 一 种 健壮 的 方法 ， 但 它 至 少 可 以 保证 避免 可 能 导致 


GAN 处 于 次 优 配 置 的 相互 关联 。 
在 训练 过 程 结 束 时 ， 我 们 可 以 生成 一 些 面部 样本 ， 如 下 所 示 : 























import numpy as np 


2 = np.random.uniform(-1.0, 1.0, size=(20, code length)) .astype (np.float32) 


Ys = session.run([gen], 
feed dict={ 
input z: 2, 
is training: False 


}) 


Ys = np.squeeze((Ys[0] + 1.0) * 0.5 * 255.0) .astype (np.uint8) 


DCGAN 生成 的 面部 样本 如 图 9-4 所 示 。 
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图 9-4 DCGAN 生成 的 面部 样本 





我 们 可 以 看 出 生成 的 样本 质量 非常 高 ， 更 长 的 训练 阶段 效果 会 更 好 (以 及 更 深入 的 超 














参数 搜索 )。GAN 己 成 功 学 习 如 何 使 用 同一 组 属 ' 


br ad 

















生成 新 的 面部 。 表 情 和 视觉 元 素 〈 例 如 


眼睛 形状 、 眼 镜 的 存在 等 ) 都 被 重新 应 用 于 不 同 的 模型 ， 以 便 产 生 从 相同 的 原始 数据 生成 











过 程 中 绘制 的 潜在 面部 。 例 如 第 一 行 的 第 七 个 和 第 八 个 面部 样本 基于 
了 某 些 属 性 。 原 始 图 像 如 几 9-5 所 示 。 

















同一 个 人 ， 他 被 修改 
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图 9-5 ”对 应 于 Olivetti 号 二 的 原始 图 像 


这 两 个 生成 的 样本 的 嘴 的 结构 都 是 通用 的 ， 但 是 看 第 二 个 样本 ， 我 们 可 以 确认 该 样本 
已 经 从 其 他 样本 中 提取 了 许多 元 素 (鼻子 、 眼 睛 、 前 额 和 朝向 )， 生 成 了 一 张 不 存在 的 人 的 
面部 。 即 使 模型 正常 工作 ， 也 会 出 现 局 部 模式 骨 演 ， 因 为 某 些 面 部 (具有 其 相对 属性 ， 如 
眼镜 〉 比 其 他 面部 更 常见 。 相 反 ， 一 些 女 性 面部 (数据 集中 的 少数 部 分 ) 已 经 与 男性 属性 
合并 生成 样本 ， 如 第 一 行 第 二 个 或 最 后 一 行 第 八 个 样本 。 作 为 练习 ， 我 建议 读者 使 用 不 同 
的 参数 和 其 他 数据 集 (包含 灰 度 和 RGB 图像， 如 Cifar-10 或 STL-10) 重新 训练 模型 。 


































































































































































































本 章 中 此 示例 和 其 他 示例 中 显示 的 图 像 通常 基于 随机 选 
代 , 因此 ,为 了 提高 再 现 性 ,我 建议 将 NumPy 和 TensorFlow 

人) 的 随机 种 子 设置 为 1000。 命令 为 : np.random. seed(1000) 
和 tf.set_ random seed(1000)。 


9.2.3 Wasserstein GAN 


























给 定 概率 分 布 p(x), 集合 D, = {x :p(x) > 0} 被 称 为 支持。 如果 两 个 分 布 pc0 和 qgC90) 具 有 
不 相交 的 支持 〈 即 Dn Dy = {名 })， 则 Jensen-Shannon 散 度 等 于 log(2)。 这 意味 着 渐变 为 
空 ， 不 再 进行 任何 校正 。 在 涉及 GAN 的 通用 方案 中 ，ps(x) 和 Pu 完全 重 登 的 可 能 性 极 小 
(但 是 ， 你 可 以 预期 最 小 重 县 )。 因 此 ， 梯 度 非常 小 ， 权 重 的 更 新 也 是 如 此 。 这 样 的 问题 可 
能 会 阻止 训练 过 程 并 将 GAN 陶 入 无 法 逃脱 的 次 优 配置 中 。 出 于 这 个 原因 , Arjovsky、Chintala 
和 Bottou (在 Wasserstein GAN 中 ) 基于 更 可 靠 的 差异 度量 ， 提 出 了 一 个 略 有 不 同 的 模型 ， 
称 为 Wasserstein 距离 〈 或 地 球 移动 距离 ): 
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为 了 理解 前 面 的 公式 ， 有 必要 说 JI(aww， pg) 是 包含 数据 生成 过 程 和 生成 器 分 布 之 间 所 有 

可 能 的 联合 分 布 的 集合 。 因 此 ，Wasserstein 距离 等 于 范 数 ||x - yl| 的 期 望 值 集合 的 最 小 值 
假设 耦合 (x, y) 是 来 自分 布 j~ 了 (pa py 的 样本 。 即 使 该 概念 是 直接 的 ， 这样 的 定义 仍 不 是 
非常 直观 。 我 们 可 以 通过 考虑 两 个 二 维 点 来 概括 该 概念 ， 其 中 这 两 个 二 维 点 的 距离 是 两 个 
最 近 点 之 间 的 距离 。 很 明显 ， 该 度量 完全 克服 了 不 相交 的 问题 ， 而 且 也 与 实际 分 布 距 离 成 
比例 。 不 幸 的 是 ， 我 们 没有 使 用 有 限 集 。 因 此 ，Wasserstein 距离 的 计算 效率 非常 低 ， 几 乎 
可 能 在 实际 任务 中 使 用 。 然 而 , Kantorovich-Rubinstein 定理 (由 于 它 超出 了 本 书 的 范围 ， 
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因此 未 全 面 分 析 〉 允许 我 们 通过 使 用 特殊 支持 函数 ftx) 来 简化 表达 式 : 























1 二 
Dy (Pua ps) 二 pw A Es ,,, [f (7)] Es, [F(X)] 

















该 定理 强加 的 主要 约束 是 ftx) 必 须 是 L-Lipschitz 函数 ,也 就 是 说 给 定 的 非 负 常数 L, 适 
用 以 下 条 件 : 














[|f(0)- f(x) LI 一 如 | Yo exX 

考虑 使 用 神经 网 络 参数 化 的 函数 及 ")， 全 局 目标 变 为 如 下 : 

Dw (Paaa | ps) = maxg eo Esp Lf (x 0)]-E,. | [f(g(z;0,);0.)]= maxs _o (Wa — Wise) 

在 这 种 特定 情况 下 ， 鉴 别 器 通常 被 称 为 评价 器 ， 因 此 ftx; 0.) 扮 演 这 个 角色 。 由 于 这 样 
的 函数 必须 是 L-Lipschitz， 因 此 作者 建议 在 应 用 修正 后 剪 切 所 有 变量 0.: 

OY = cj2p(00 + QVa Dy,-c,c) 

该 方法 效率 不 高 ， 因 为 它 减 慢 了 学 习 过 程 。 然 而 ， 当 函数 执行 一 组 有 限 变 量 的 操作 时 ， 
假设 输出 总 是 受 常数 约束 ， 则 可 以 应 用 Kantorovich-Rubinstein 定理 。 当 然 ， 由 于 参数 化 通 
常 需 要 许多 变量 (有 时 数 百 万 或 更 多 )， 因 此 剪 切 常数 应 保持 非常 小 (例如 0.01)。 此 外 ， 
由 于 剪 切 的 存在 会 影响 评价 器 的 训练 速度 ， 因 此 在 每 次 迭代 期 间 也 需要 增加 评价 器 训练 步 
又 的 数量 (例如 评价 器 为 5 次 ， 生 成 器 为 1 次 ， 依 此 类 推 )。 

将 DCGAN 转换 为 WGAN 

在 这 个 例子 中 ， 我 们 将 使 用 Fashion MNIST 数据 集 (由 Keras 直接 提供 ) 实现 基于 
Wasserstein 距离 的 DCGAN。 该 数据 集 由 60000 个 28 像素 x28 像素 的 衣服 灰 度 图 像 组 成 ， 
它 由 Zalando 引入 ， 作 为 标准 MNIST 数据 集 的 替代 品 ， 因 为 该 数据 集 的 类 太 容 易 与 许多 分 
类 器 分 离 。 考 虑 到 此 类 网 络 所 需 的 训练 时 间 ， 我 们 决定 将 过 程 限 制 为 5000 个 样本 , 但 具有 
足够 资源 的 读者 可 以 选择 增加 样本 数量 或 去 掉 此 限制 。 
第 一 步 包 括 加 载 、 切 片 和 规范 化 数据 集 〈(-1, 1) 中 )， 如 下 所 示 : 
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import numpy as np 


from keras.datasets import fashion mnist 


nb _ samples = 5000 


(X train, ), (, ) = fashion mnist.load data() 
X train = X train.astype (np.float32) [0:nb samples] / 255.0 
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Xtrain = (2.0 * X train) - 1.0 


widthn = XxX train.shapel[1] 
height = X train.shape[2] 




















从 Fashion MNIST 数据 集中 提取 的 样本 ， 如 图 9-6 所 示 。 


< 他 全 | | [一 | 局 


图 9-6 ”从 Fashion MNIST 数据 集中 提取 的 样本 
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我 们 现在 可 以 基于 DCGAN 的 同一 层 定义 生成 器 DAG， 如 下 所 示 。 

。 具有 1024 (4x4) 个 滤波 器 、(1x1) 步 幅 、 有 效 的 填充 和 线性 输出 的 2D 卷 积 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 512 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 
。 具有 256 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 128 〈4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 1 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 双 曲 正切 输出 的 2D 卷 积 。 
代码 显示 如 下 : 






































































































































































































































































































































import tensorflow as tf 


def generator(z, is training=True): 
with tf.variable scope('generator'): 
conv 0 = tf.layers.conv2d transpose (inputs=z, 
filters=1024, 
kernel size=(4, 4), 
padding="'valid') 


b_ conv 0 = tf.layers.batch normalization (inputs=conv_0, 


training=is training) 


254 第 9 章 生成 式 对 抗 网 络 和 自 组 织 映射 


conv 1 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 0), 
filters=512, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b conv 1 = tf.layers.batch normalization (inputs=conv 1， 


training=is training) 


conv 2 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 1), 
filters=256, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 
b conv 2 = tf.layers.batch normalization (inputs=conyv 2, 


training=is training) 


conv 3 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relu(b conv 2), 
filters=128, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 
b _ conv 3 = tf.layers.batch normalization (inputs=conyv_ 3， 


training=is training) 


conv 4 = 
tf.layers.conv2d transpose (inputs=tf.nn.leaky relul(b conv 3), 
filters=1, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 
return tf.nn.tanh (conv 4) 


评价 器 的 DAG 基于 以 下 层 集 。 
。 具有 128 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 泄漏 的 ReLU 输出 的 2D 卷 积 。 
。 具有 256 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 

。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 



























































并. 
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。 具有 512 (4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 1024(4x4) 个 滤波 器 、(2x2) 步 幅 、 相 同 的 填充 和 线性 输出 的 2D 卷 积 。 
。 批 处 理 规范 化 和 泄漏 ReLU 激活 。 

。 具有 1 (4x4) 个 滤波 器 、(2x2) 步 幅 、 有 效 的 填充 和 线性 输出 的 2D 卷 积 。 
相应 的 代码 如 下 : 














































































































import tensorflow as tf 


def critic(x, is training=True, reuse variables=True): 
with tf.variable scope('critic', reuse=reuse variables): 
conv 0 = tf.layers.conv2d (inputs=x, 
filters=128, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


conv 1 = tf.layers.conv2d(inputs=tf.nn.leaky relu(conv 0), 
filters=256, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b conv 1 = tf.layers.batch normalization (inputs=conv 1， 


training=is training) 


conv 2 = tf.layers.conv2d(inputs=tf.nn.leaky relul(b conv 1), 
filters=512, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 


b conv 2 = tf.layers.batch normalization (inputs=conyv 2, 


training=is training) 


conv 3 = tf.layers.conv2d(inputs=tf.nn.leaky relu(b conv 2), 
filters=1024, 
kernel size=(4, 4), 
strides=(2, 2), 
padding="'same') 
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b _ conv 3 = tf.layers.batch normalization (inputs=conv_ 3， 
training=is training) 


conv 4 = tf.layers.conv2d(inputs=tf.nn.leaky relu(b conv 3), 
filters=1, 
kernel size=(4, 4), 
padding="'valid') 


return conv 4 





由 于 与 DCGAN 没有 特别 的 差异 ， 因 此 无 须 添加 其 他 注释 。 因 此 ， 我 们 可 以 继续 讨论 
图 像 和 整个 DAG 的 定义 ， 如 下 所 示 : 




















import tensorflow as tf 





nb epochs = 100 

NB Crlitie :S53 

batch size = 64 

nb iterations = int (nb samples / batch size) 
code lengthn = 100 

graph = tf.Graph() 


with graph.as default (): 
input x = tf.placeholder (tf.float32, shape= (None, width, heignt, 1)) 
input z = tf.placeholder (tf.float32, shape= (None, code length) ) 
is training = tf.placeholder (tf.bool) 











gen = generator (z=tf.reshape (input z, (-1, 1, 1, code length)), 
is training=is training) 


r input x = tf.image.resize images (images=input x, size=(64,64), 
method=tf.image.ResizeMethod.BICUBIC) 





crit 1 1 = critic(x=r input x, is training=is training, 
reuse variables=False) 

crit 2 1 = critic(x=gen, is training=is training, 
reuse variables=True) 





上 上 SS: G = tf.-reduce meanlcrit 2 1 = "crit 4.1) 
loss g = tf.reduce mean(-crit 2 1) 
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variables 9g = [variable for variable in tf.trainable variables() 
if variable.name.startswith('generator')] 
variables c = [variable for variable in tf.trainable variables () 


if variable.name.startswithn('critic')] 


with 
tf.control dependencies (tf.get collection (tf.GraphKeys .UPDATE OPS) ) : 
optimizer c = tf.train.AdamOptimizer (0.00005, betal=0.5, 
beta2=0.9).\ 








minimize (loss=loss c, var list=variables c) 


with tf.control dependencies ([optimizer c]): 
training step c = tf.tuple(tensors=[ 
tf.assign (variable, 
tf.clip by value (variable, -0.01, 0.01)) 


for variable in variables cl]) 


training step g = tf.train.AdamOptimizer(0.00005, betal=0.5, 
beta2=0.9).\ 
minimize (loss=loss 9g, 


var list=variables 9g) 














像 往常 一 样 ， 第 一 步 是 声明 占 位 符 ， 它 与 DCGAN 相同 。 然 而 ， 由 于 模型 (特别 是 卷 
积 序 列 或 转 置 卷 积 序列 ) 已 针对 64 像素 x64 像素 的 图 像 进行 了 优化 ， 因 此 我 们 将 使 用 方法 
tfimage.resize_ images() 调 整 原始 样本 的 大 小 。 此 操作 将 导致 一 定 的 质量 损失 。 因 此 ， 在 生 
产 应 用 程序 中 ， 我 强烈 建议 你 使 用 针对 原始 输入 维度 优化 的 模型 。 在 声明 了 生成 器 和 评价 
器 之 后 (正如 我 们 在 前 面 的 例子 中 所 讨论 的 ， 我 们 需要 两 个 实例 共享 相同 的 变量 ， 因 为 损 
失 函 数 是 单独 优化 的 )， 我 们 可 以 弥补 损失 。 在 这 种 情况 下 ， 它 们 非常 简单 且 计 算 速 度 快 ， 
有 旦 我 们 为 此 简化 和 为 该 网 络 能 够 应 用 较 小 的 修正 付出 了 人 代价。 事实 上， 在 这 种 情况 下 ， 我 
门 不 是 直接 最 小 化 评价 器 损失 函数 ， 相反 ， 我 们 首先 使 用 optimizer_c 计算 和 应 用 梯度 ， 然 
后 我 们 使 用 training_step_c 来 剪 切 所 有 评价 变量 。 因 为 我 们 只 想 调 用 这 个 运算 符 ， 所 以 我 
们 在 使 用 指令 tf.control dependencies([optimizer cD) 定义 的 情况 中 声明 了 它 。 这 样 ， 当 请 求 
会 话 计算 traning_step_c 时 ，TensorFlow 将 注意 首先 运行 optimizer _ c, 但 只 有 在 结果 准备 就 
绪 时 才 会 执行 main 命令 (该 操作 简单 地 剪 切 变量 )。 正 如 我 们 在 理论 中 所 解释 的 那样 ， 这 
步 又 对 于 信和 + 器 仍然 是 L-Lipschitz 函数 是 必要 的 ， 因 此 允许 使 用 从 Kantorovich- 
Rubinstein 定理 派生 的 简化 Wasserstein 距离 表达 式 。 


完全 定义 图 像 后， 我 们 可 以 创建 会 话 并 初始 化 所 有 变量 ， 如 下 所 示 : 
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import tensorflow as tf 


session 
tf.globa 





现在 ， 所 有 分 量 均 已 设置 好 ， 并 且 我 们 准备 开始 训练 


= tf.InteractiveSession (graph=graph) 





























我 们 的 例子 中 为 5 个 ) 评价 


import n 





umpy as np 


训 





1 variables_initializer().runl() 








练 步 又 的 迭代 和 生成 器 训练 


samples range = np.arange (X train.shape[0]) 


for e in range (nb epochs): 


c losses = [|] 


g_losses = [] 


for i in range (nb iterations): 


for J in range(nb. eritie): 








过 程 。 该 过 程 分 为 nb_critic〈 在 
步骤 的 执行 ， 如 下 所 示 : 





Xi = np.random.choice (samples range, size=batch size) 
X = np.expand dims (X train[Xi], axis=3) 
2 = np.random.uniform(-1.0, 1.0, size=(batch size, 


code length) ) .astype (np.float32) 


,LOSS 


= session.run([training step c, loss cl], 
feed dict={ 
UDUte XX 


DUt 


is training: True 


c_ losses.append(c loss) 


2 = np.random.uniform(-1.0, 1.0, size=(batch size, 


code lengtn)) .astype (np.float32) 


1 9 loss = 


session.run([training step g, loss 9g], 


feed dict 


二 


TNnDUut xc: 


np.zeros (shape= (batch size width, height, 1) 


) v 


nin 9A Hot 


ES tr 


}) 


g_losses.append(g loss) 


aining: True 
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print('Epoch {}) Avg. critic loss: {} - Avg. generator loss: 
{}'.format(e + 1, 
np.mean(c losses), 


np.mean(g _ losses))) 














在 此 过 程 结束 时 《可 能 会 很 长 ， 特 别 是 在 没有 任何 GPU 文 持 的 情况 下 )， 为 了 获得 视 














然 





a 


响 图 像 的 质量 。 然 而 ， 有 趣 的 是 ， 生 成 的 样本 就 平均 而 言 要 比 原始 样本 更 复杂 。 例 如 衣服 
的 质地 和 形状 受到 其 他 因素 (例如 包 和 鞋 ) 的 影响 ， 导 致 新 样本 数量 增加 的 模型 不 太 规 律 。 























有 认 ， 我 们 可 以 再 次 生成 一 些 样 本 ， 如 下 所 示 : 
import numpy as np 
2 = np.random.uniform(-1.0, 1.0, size=(30, code length) ) .astype (np.float32) 
Ys = session.run([gen], 
feed dict={ 
Input ZZy 
is training: False 


}) 


Ys = np.squeeze((Ys[0] + 1.0) * 0.5 * 255.0) .astype (np.uint8) 


WGAN 生成 的 样本 如 图 9-7 所 示 。 


一 
国 风 忆 固 UNE 
图 半身 口 加 图 加 图 加 时 


图 9-7 WGAN 生成 的 样本 
我 们 可 以 看 出 ，WGAN 已 经 收敛 到 一 个 相当 好 的 最 终 配 置 。 调整 大 小 的 操作 会 严重 影 






















































































































而 ， 因 素 增加 对 图 像 理解 的 影响 与 Olivetti 面部 数据 集 相 反 。 在 这 种 情况 下 ， 我 们 更 难 





















































解 样本 是 否 由 异 构 属 性 的 混合 组 成 ， 因 为 数据 生成 过 程 〈 例 如 标准 MNIST) 至 少 有 10 种 





























千 
与 





原始 类 相对 应 的 主 模式 。 
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WGAN 不 会 陷入 模式 骨 溃 ， 但 是 正如 我 们 在 面部 数据 集 观 察 到 的 那样 ,不 同 区 域 的 强 
分 离 会 阻止 模型 轻松 合并 元 素 。 作 为 练习 ， 我 建议 读者 使 用 Olivett 面部 数据 集 重复 此 示例 ， 
找到 最 佳 超 参 数 配 置 ， 并 将 结果 与 标准 DCGAN 实现 的 结果 进行 比较 。 


9.3 ”上 自 组 织 映 射 


















































自 组 织 映 射 是 由 Willshaw 和 Von Der Malsburg 首次 提出 的 模型 (参见 How Patterned 
Neural Connections Can Be Set Up by Self-Organization)， 目 的 是 找到 一 种 方法 来 描述 许多 动 
物 大 脑 中 发 生 的 不 同 现象 。 事 实 上 ， 他 们 观察 到 大 脑 的 某 些 区 域 可 以 形成 内 部 组 织 结构 ， 
其 子 组 件 在 特定 输入 模式 下 会 选择 性 接收 信息 《例如 一 些 视觉 皮层 区 域 对 垂直 或 水 平 带 非 
常 敏感 )。SOM 的 核心 思想 可 以 通过 考虑 一 个 旨 在 找 出 样本 的 低级 属性 的 聚 类 过 程 来 合成 ， 这 
要 归功 于 它 对 聚 类 的 分 配 。 关 键 在 于 ， 在 SOM 中 ， 单 个 单元 通过 赢 者 通 吃 (Winner-Takes-All) 
的 学 习 过 程 可 以 代表 样本 群体 的 一 部 分 ( 即 数据 生成 过 程 的 区 域 )。 这 样 的 训练 过 程 首 先 引 
出 所 有 单元 〈 我 们 称 之 为 神经 单元 ) 的 反应 ， 并 通过 减少 最 活跃 区 单元 周围 的 影响 区 域 来 
加 强 所 有 的 权重 和 收益 ， 直 到 某 个 单元 成 为 唯一 对 给 定 输入 模式 作出 响应 的 神经 元 。 


该 合成 过 程 如 图 9-8 所 示 。 
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图 9-8 SOM 开发 的 墨西哥 帽 的 选择 性 
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在 初始 步骤 中 ， 许 多 单元 响应 相同 的 输入 模式 ， 但 我 们 已 经 可 以 观察 到 x; 的 优势 。 然 


























而 ， 立 即 选择 该 单元 可 能 导致 过 早 的 收 剑 ， 从 而 导致 精度 损失 。 这 就 是 获胜 单元 周围 的 半 
径 逐 渐 减 小 的 原因 (由 于 形状 特点 ,我们 观察 到 一 种 称 为 墨西哥 帽子 Mexican Hat) 的 现 
象 )。 当然 , 在 这 一 过 程 中 , 最 初 获胜 的 单元 无 法 保持 稳定 , 所 以 我 们 要 避免 半径 快速 减 小 ， 
























































防止 其 他 潜在 单元 被 引出 。 当 














个 神经 元 在 特定 模式 下 保持 最 活跃 状态 时 ， 它 将 逐渐 变 成 




















实际 获胜 者 。 因 此 ， 它 会 消耗 所 有 的 力气 ， 因 为 不 再 有 其 他 单元 会 被 强化 。 
一 些 非常 著名 和 有 用 的 SOM 是 Kohonen 映射 (首次 出 现在 Self-Organized Formation of 
Topologically Correct Feature Maps 中 )。 它们 是 在 由 NN 个 神经 元 构成 的 二 维 流 形 (最 典型 的 













































































情况 是 平坦 的 二 维 区 域 )》 上 投影 的 平面 。 从 现在 开始 ， 为 简单 起 见 ， 我 们 将 考虑 映射 到 包 






































含 kxp 个 单位 矩阵 上 的 曲面 ， 每 个 曲面 都 使 用 突 触 权重 WrE 儿 "〈 维 度 与 输入 模式 羡 E 罗 " 


























相同 ) 建 模 。 因 此 ， 权 重 矩 阵 变 为 Wi, ))e 园 *?“”。 从 实际 的 角度 来 看 ， 在 该 模型 中 ， 由 于 























不 执行 内 部 转换 ， 因 此 神经 元 通过 相应 的 权重 向 量 表示 。 呈 现 模 式 x; 时 ， 使 用 以 下 规则 确 







































































定 获 胜 神经 元 n,〈 作 为 元 组 ): 
n,, = argmin 

训练 过 程 通常 分 为 两 个 不 
单元 的 所 有 邻 域 ， 而 在 收敛 阶 











wn [Wk, p) -Tl wheren, e{(1,R),01,p)} 


同 的 阶段 : 调整 和 收敛 。 在 调整 阶段 ， 更 新 将 扩展 到 获胜 
段 ， 将 仅 增强 权重 Wn,)。 但 是 ， 平 滑 而 渐进 的 下 降 比 快 







































































速 下 降 更 可 取 ; 因此 ， 对 于 邻 域 大 小 ns(i) 的 常见 选择 是 基于 具有 指数 衰减 方差 的 径 向 





基 函 数 : 


初始 方差 〈 与 最 大 邻 域 成 了 


当 !> 委 时 oO0s0， 因 此 z 应 设置 为 等 于 调整 阶段 训练 时 期 数值 的 1/4: t= 0.25*tog。 一 旦 








=G 站 
20(1) 





n,(i,))=e 
ee 
o(f)=0o0e " 


E 比 ) 为 oo， 并 且 根 据 时 间 常 数 t 呈 指数 衰减 。 根 据 经 验 ， 






































定义 了 邻 域 ， 就 可 以 根据 它们 与 每 个 样本 x; 的 差异 度 来 更 新 所 有 成 员 的 权重 : 

















Am =7(Dn(i, (x — Ww;) 








在 前 面 的 公式 中 ， 学 习 速率 n() 也 是 训练 时 期 的 函数 ， 因 为 最 好 在 早期 (尤其 是 在 调 
整 阶段 ) 施 加 更 大 的 灵活 性 ， 而 最 好 在 收敛 阶段 ， 设 置 较 小 的 1， 以 便 进行 较 小 的 修改 。 
衰减 学 习 速率 的 一 个 非常 常见 的 选择 类 似 于 邻 域 大 小 : 
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7(7) = Moe t<tiy 
7 tt 
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学 习 规则 的 作用 是 迫使 获胜 单元 的 权重 接近 特定 模式 ， 因 此 在 训练 过 程 结 束 时 ， 每 个 









































模式 都 应 引起 代表 一 个 定义 明确 特征 集 的 单个 单元 的 响应 。 自 组 织 源 自 这 种 模型 必须 优化 
单元 的 能 力 ， 以 便 使 相似 的 模式 彼此 靠近 《例如 如 果 垂 直 引 起 单元 的 响应 ， 则 一 个 轻微 的 
旋转 应 引起 领域 的 响应 )。 


Kohonen 映射 示例 









































在 此 示例 中 , 我 们 要 训练 一 个 8x8 的 正方 形 Kohonen 映射 以 接受 Olivetti 面部 数据 集 。 




















uml 








日 于 


每 个 样本 都 是 64 像素 x64 像素 的 灰 度 图 像 ， 因 此 我 们 需要 分 配 一 个 形状 等 于 (8，8， 





4096) 的 权重 矩阵。 训练 过 程 可 能 会 很 长 ; 因此 , 我 们 会 将 映射 限制 为 100 个 随机 样本 ( 当 


、 











读者 可 以 删除 该 限制 ， 并 使 用 整个 数据 集训 练 模型 )。 
同样 ， 让 我 们 从 加 载 和 规范 化 数据 集 开始 ， 如 下 所 示 : 




















import numpy as np 

from sklearn.datasets import fetch olivetti faces 

faces = fetch olivetti faces (shuffle=True) 

Xcomplete = faces['data'] .astype (np.float64) / np.max (faces['data']) 


np.random.shuffle (Xcomplete) 
X = Xcomplete[0:100] 


现在 ， 让 我 们 为 


[SI 





离 函 数 的 方差 o( 办 和 学 习 速率 (0 定义 指数 衰减 函数 ， 如 下 所 示 : 
import numpy as np 

eta0 = 1.0 

sigma0 = 3.0 


tau = 100.0 


def eta (七 ) : 
return eta0 * np.exp(-float(t) / tau) 


def sigma (七 ) : 
return float (sigma0) * np.exp(-float(t) / taul) 





在 此 示例 中 ， 我 们 令 初 始 学 习 速 率 1(0) = 1， 半 径 方差 o(0) = 3。 时 间 常 数 等 于 100， 


因为 我 们 计划 执行 500 次 调整 迭代 和 500 次 收 化 迭代 (总共 1000 次 迭代 )。 相 应 的 值 在 下 
面 的 代码 段 中 声明 : 
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nb iterations = 1000 
nb ad] iterations = 500 





此 时 ,我 们 可 以 基于 差 w 一 x 的 工 范 数 定义 权重 矩阵 (初始 化 为 wij ~ N(0, 0.01))〉 和 负 
责 计算 获胜 单元 的 函数 ， 如 下 所 示 : 














import numpy as np 


pattern length = 64 * 64 
pattern width = pattern height = 64 
matrix side = 8 





W = np.random.normal (0, 0.1, size=(matrix side, matrix side, 
pattern length)) 





def winning unit (xt): 

distances = np.linalg.norm(W - xt, ord=2, axis=2) 

max activation unit = np.argmax (distances) 

return int(np.floor (max activation unit / matrix side)), 
max activation unit $ matrix side 























a 














在 开始 训练 周期 之 前 ， 最 好 预先 计算 距离 矩阵 dmxo, yo, x1, yp1)， 其 中 每 个 元 素 代表 (xo, y0) 与 
(7) 之 间 的 平方 欧 氏 距离 。 如 以 下 代码 段 所 示 , 此 步 又 在 确定 获胜 单位 邻 域 时 避免 了 计算 开销 : 



































import numpy as np 


precomputed distances = np.zeros((matrix side, matrix side, matrix side, 
matrix side)) 


for i in range (matrix side): 
for j in range (matrix side): 
for k in range (matrix side): 
for t in range (matrix side): 
precomputed distances[i, j, k, t] = \ 
np.power (float (i) - float(k), 2) + np.power (float(j) - 
float(t), 2) 


def distance matrix(xt, yt, sigmat): 
dm = precomputed distances[xt, yt, :, :] 
de = 2.0 * np.power (sigmat, 2) 
return np.exp(-dm / de) 


























函数 distance_matrix() 计 算 一 个 方 阵 ， 其 中 包含 所 有 以 (xt, yb 为 中 心 的 神经 元 的 指数 误 
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减 影响 。 现 在 ， 我 们 具有 创建 训练 过 程 所 需 的 所 有 构造 块 ， 该 训练 过 程 基于 我 们 先前 描述 
的 权重 更 新 规则 ， 如 下 所 示 : 





























import numpy as np 


sequence = np.arange (0, XxX.shape[0]) 
t= 0 


for e in range (nb iterations): 
np.random.shuffle (sequence) 
t += 1 


if e < nb ad] iterations: 
etat = eta(t) 
sigmat = Sigma(t) 
else: 
etat = 0.2 
sigmat = 1.0 





for n in sequence: 


X Sample = XI[n] 


xw, yw = winning unit (x _ sample) 


dm = distance matrix(xw, yw, sigmat) 


dW = etat * np.expand dims (dm, axis=2) * (x _ sample - W) 
W += dW 


W /= np.linalg.norm(W, axis=2) .reshape((matrix side, matrix side, 1)) 


if e>0 ande % 100 == 
print('Training step: {}'.format(t-1)) 


在 每 个 循环 中 ， 执 行 以 下 步 又。 
。 为 了 避免 相互 关联 ， 对 输入 样本 的 顺序 进行 随机 打 乱 。 
。 计算 学 习 速 率 和 距离 方差 〈 收 敛 值 为 因 =0.2 和 = =1)。 
。 对 于 每 个 样本 ， 适 用 以 下 条 件 。 
= ”计算 获胜 单元 。 
= 计算 距离 矩阵 。 
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。 计算 并 应 用 权重 更 新 

。 重新 调整 权重 ， 以 避免 游 出 。 
现在 ， 我 们 可 以 在 训练 过 程 结束 时 显示 权重 矩阵 ， 如 图 9-9 所 示 。 
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9-9 ”训练 过 程 结束 时 的 Kohonen 映射 的 权重 矩阵 


我 们 可 以 看 到 ， 每 个 权重 都 集中 在 面部 的 通用 结构 上 《因为 数据 集 仅 包含 这 种 模式 )。 
但 是 ， 不 同 的 权重 对 特定 的 输入 属性 的 相应 能 力 变 得 更 加 人 敏感。 我 建议 你 先 开 始 看 左上 的 
面部 的 元 素 (例如 眼睛 或 嘴巴 ), 沿 着 螺旋 线 作 顺 时 针 方 向 旋转 ,最 后 在 中 间 的 重要 元 素 上 
结束 。 这 样 ， 很 容易 看 到 接收 字段 中 的 修改 。 作 为 练习 ， 我 建议 读者 使 用 其 他 数据 集 ( 例 
如 MNIST 或 Fashion MNIST) 测试 模型 ， 并 对 最 终 的 权重 矩阵 执行 手动 标记 《例如 考虑 此 
示例 ,特定 权重 可 以 表示 戴 眼镜 的 笑脸 和 一 个 大 描 子 )。 标 记 每 个 元 素 后 ,我 们 就 可 以 投影 
原始 样本 ， 并 通过 直接 提供 标签 作为 输出 来 检查 哪些 神经 元 更 容易 接受 。 





































































































9.4 总 结 





在 本 章 中 ， 我 们 介绍 了 GAN 的 概念 ， 并 讨论 了 DCGAN 的 示例 。 这 些 模型 具有 通过 
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使 用 极 大 极 小 游戏 中 涉及 的 两 个 神经 网 络 来 学 习 数据 生成 过 程 的 能 力 。 生 成 器 必须 学 习 返 
回 与 训练 过 程 中 使 用 的 其 他 样本 没有 区 别 的 样本 。 鉴 别 器 或 评价 器 ， 需 要 为 有 效 样本 分 配 
高 概率 ， 所 以 必须 变 得 越 来 越 聪 明 。 对 抗 训练 方法 基于 强迫 生成 器 战胜 鉴别 器 的 想法 ， 通 
过 学 习 如 何 用 与 真实 样本 相同 的 属性 的 合成 样本 来 欺骗 它 ， 同 时 ， 通 过 越 来 越 具 有 选择 性 
来 迫使 生成 器 战胜 鉴别 器 。 在 我 们 的 示例 中 , 还 分 析 了 一 个 重要 的 称 为 WGAN 的 变 体 , 在 
当 标 准 模型 无 法 重 现 有 效 样本 时 可 以 使 用 该 变 体 。 

SOM 是 基于 大 脑 特定 区 域 的 功能 结构 ， 它 迫使 其 单元 学 习 输 入 样本 的 特定 特征 。 这些 
模型 会 自动 进行 自我 组 织 ， 以 便 使 响应 类 似 模 式 的 单元 更 接近 。 一 旦 出 现 新 的 样本 ， 就 足 
以 计算 获胜 单元 ， 即 权重 与 样本 的 距离 最 短 的 单元 ， 并 且 在 标记 过 程 之 后 ， 可 以 立即 知道 
哪些 特征 引起 了 响应 《例如 垂直 线条 或 高 级 特征 ， 如 眼镜 或 胡子 的 存在 ， 或 面部 的 形状 )。 


















































































































































































































































9.5 ”问题 














1. 在 GAN 中 ， 生 成 器 和 鉴别 器 扮演 相同 的 角色 ， 就 像 自动 编码 器 中 的 编码 器 和 解码 
器 正确 吗 ? 


2. 鉴别 器 输出 值 是 否 可 以 在 〈-1, 1) 的 范围 内 ? 

3. GAN 的 一 个 问题 是 鉴别 器 的 过 早 收 敛 ， 正 确 吗 ? 

4. 在 Wasserstein GAN 中 ， 评 价 器 (鉴别 器 〉 在 训练 阶段 是 否 比 生成 器 慢 ? 
5. 考 问题 4， 速度 不 同 的 原因 是 什么 ? 

6. 在 U(-1, 0 和 U(1, 2) 之 间 ，Jensen-Shannon 散 度 的 值 是 多 少 ? 

7. 赢 者 通 吃 策略 的 目标 是 什么 ? 

8. SOM 在 训练 过 程 的 调整 阶段 的 目的 是 什么 ? 
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无 监督 学 习 可 以 独立 于 有 监督 学 习 应 用 ， 因 为 它们 的 目标 是 不 同 的 。 但 如 果 一 个 问 
题 需要 有 监督 学 习 ， 通 常 无 监督 学 习 不 能 用 作 蔡 代 的 解决 方案 。 通 常 ， 无 监督 学 习 尝试 从 
数据 集中 提取 信息 片段 《例如 聚 类 )， 而 没有 任何 外 部 提示 《例如 预测 错误 )。 相 反 ， 有 监 
习 需 要 提示 来 纠正 其 参数 。 

2， 由 于 目标 是 找到 趋势 的 原因 ， 因 此 有 必要 进行 诊断 性 分 析 。 

3， 不 正确 。 从 相同 分 布 中 抽取 个 独立 样本 的 可 能 性 是 作为 单个 概率 的 乘积 获得 的 


(主要 假设 参见 问题 4)。 

4. 主要 假设 是 指 样本 是 独立 同 分 布 的 。 

5. 性 别 可 以 编码 为 数字 特征 〈 例 如 独 热 编 码 )， 因 此 ， 我 们 需要 考虑 两 种 可 能 性 。 如 
果 属 性 中 不 存在 性 别 ， 而 且 其 他 特征 与 性 别 没有 相关 性 ， 那 么 聚 类 的 结果 是 完全 合理 的 。 
如 果 属 性 中 存在 性 别 ， 那 么 一 般 的 聚 类 方法 是 基于 样本 间 的 相似 性 ，50/50 的 结果 意味 着 性 
别 不 是 有 差别 特征 。 换 名 话说， 给 定 两 个 随机 选择 的 样本 ， 它 们 的 相似 度 不 受 性 别 的 影响 
《或 稍 有 影响 )， 因 为 其 他 特征 占 主 导 地 位 。 例 如 ， 在 这 种 特殊 情况 下 ， 平 均 分 或 年 龄 的 差 
异 较 大 ， 所 以 它们 的 影响 更 大 。 

6. 我 们 可 以 期 待 更 紧凑 的 组 ， 其 中 每 个 主要 特征 具有 更 小 的 范围 。 例 如 一 个 组 可 以 包含 
年 龄 在 13 一 15 的 学 生 ， 包 含 所 有 可 能 的 标记 等 等 。 或 者 ， 我 们 可 以 观察 基于 单个 特征 的 分 割 
(例如 年 龄 、 标 记 平 均值 , 等 等 )。 最 终结 果 取 决 于 向 量 的 数据 结构 、 距 离 函 数 ， 当 然 还 有 算法 。 

7. 如 果 每 个 客户 都 由 包含 他 /她 的 兴趣 摘要 的 特征 向 量 表示 例如 基于 他 /她 已 经 购买 
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或 看 过 的 产品 )， 


定 品牌 ， 等 等 )， 














我 们 找到 聚 类 分 配 ， 检 查 哪些 元 素 表征 聚 类 “例如 书籍 、 电 影 、 服 装 、 特 
并 使 用 这 些 信息 片段 来 推荐 潜在 产品 ( 即 类 似 用 户 购买 的 产品 )。 这 一 概 



































念 基于 在 同一 聚 类 成 员 之 间 共 享 信息 的 主要 思想 ， 这 要 归功 于 相似 性 。 
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= 
鞋 








1. 曼哈顿 距离 与 闵可夫 斯 基 距 离 相同 (p=1)， 因 此 我 们 期 望 观 察 更 长 的 距离 。 
2. 错误 。 收 敛 速度 主要 受到 质心 的 初始 位 置 影响 。 











3. 正确 。K- 






































means 主要 用 于 凸 聚 类 ， 在 凹 聚 类 上 表现 较 差 。 

















4. 这 意味 着 所 有 聚 类 《除了 样本 百分比 可 忽略 不 计 的 ) 分 别 只 包含 属于 同一 类 的 样本 











《 即 具 有 相同 的 真实 标签 )。 

















5. 这 意味 着 





真实 标签 分 布 和 分 配 之 间 存 在 中 等 或 强烈 的 负 差 异 。 这 样 的 值 是 一 个 无 法 























被 接受 的 明显 的 负面 条 件 ， 因 为 绝 大 多 数 的 样本 已 经 被 分 配给 错误 的 聚 类 。 
6. 不 能 。 因 为 调整 后 的 兰 德 分 数 是 基于 事实 真相 的 〈 即 预期 的 聚 类 数量 是 固定 的 )。 


7. 如 果 所 有 基本 查询 需要 相同 的 时 间 ， 则 在 60-(2x4)-2=50 秒 内 执行 完毕 。 因 此 ， 它 
们 中 的 每 一 个 查询 都 需要 50/100=0.5 秒 。 令 leaf size=50， 我 们 可 以 期 望 将 两 个 50-NN 查询 











的 执行 时 间 减 半 ， 









































而 对 基本 查询 没有 影响 。 因 此 , 基本 查询 的 总 可 用 时 间 变 为 60-(2x2)-2=54 


秒 ， 因 此 ， 我 们 可 以 执行 108 个 基本 查询 。 
8. 错误 。ball-tree 是 一 种 不 遭受 维 数 灾 难 的 数据 结构 ,其 计算 复杂 度 始终 为 O(N log M)。 





9. 高 斯 M[ 一 


















































1.0, 0.0]、diag[0.1, 0.2D) 和 MI[-0.8, 0.0]，diag[0.3, 0.3]) 重 厂 〈( 即 使 得 到 的 


























聚 类 非常 拉 伸 )， 而 第 3 个 是 足够 远 的 〈 考 虑 均值 和 方差 )， 可 以 由 独立 的 聚 类 捕获 。 因 此 ， 
最 佳 聚 类 的 大 小 为 2， 而且 对 于 K-means 很 难 将 大 的 斑点 正确 地 分 离 为 两 个 内 聚 分 量 〈 特 


别 是 对 于 大 量 的 样本 )。 













































































10. VQ 是 一 种 有 损 压缩 方法 。 它 只 能 在 语义 不 会 被 小 的 或 中 等 的 变换 改变 时 使 用 。 


在 这 种 不 修改 基 而 
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1. 不是。 在 凸 集合 中 ， 给 定 两 个 点 ， 连 接 它们 的 线段 始终 位 于 旨 











语义 的 情况 下 ，VQ 不 可 能 将 令 牌 与 男 一 个 令 牌 交换 。 
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和 
沉 
n> 
也 








10.5 





2. 考虑 到 数据 集 的 径 向 结构 ，RBF 内 核 通常 可 以 解决 这 个 问题 


3. 











使 























下 精 一 二 
噪声 点 。 


4. 错误 。K-medoids 可 以 用 于 任何 度量 。 


5. 错误 。 








呀 


























DBSCAN 对 几何 形态 不 敏感 ， 可 以 管理 任何 类 型 的 聚 类 结构 。 
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] s=1.0 时 ， 许 多 点 不 是 密度 可 达 的 。 当 球 的 半径 减 小 时 ， 我 们 应 该 期 待 更 多 的 


6. 我 们 已 经 证 明了 Mini-batch K-means 的 性 能 略 差 于 K-means。 因 此 , 答案 是 肯定 的 。 
可 以 使 用 批 次 算法 来 节省 内 存 。 
7. 考虑 到 噪声 的 方差 为 o2=0.005 一 oa ~0.07， 这 比 聚 类 标准 差 小 约 14 倍 ， 我 们 不 能 期 





望 在 稳定 的 


10.4 





2 


3. 
4. 
5. 
6. 
7. 
8. 


些 元 素 保留 在 同一 个 聚 类 中 。 


10.5 


1 . 




















聚 类 配置 中 有 如 此 大 量 的 新 分 配 (80%)。 
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. 在 凝聚 方法 中 ， 算 法 从 每 个 样本 开始 ， 视 其 为 一 个 聚 类 ， 并 继续 合并 子 聚 类 直到 和 定 
人 在 分 裂 方法 中 ， 算 法 从 包含 所 有 样本 的 单个 聚 类 开始 ， 然 后 通过 拆 分 直到 每 
个 样本 构成 一 个 聚 类 。 
近 的 点 是 (0,0) 和 (0,1)， 因 此 单一 链 是 L,(a, 5)=1。 最 远 的 点 是 (-1,-1) 和 (1,1)， 所 以 
完整 链 是 Li(q, bp) = 2V2 。 


最 近 







































































































































































错误 。 树 状 图 是 给 定 度量 和 链接 的 分 层 聚 类 过 程 的 树 表示 。 

不 正确 。 在 凝聚 聚 类 中 ， 树 状 图 的 初始 部 分 包含 了 所 有 样本 作为 自治 聚 类 。 
了》 轴 代表 报告 差异 度 。 

不 正确 。 将 较 小 的 聚 类 合并 为 较 大 的 聚 类 时 ， 差 异 度 会 增加 。 

正确 。 这 就 是 同 表 型 矩阵 的 定义 。 

连通 性 约束 允许 强制 ， 因 此 其 主要 目的 是 将 约束 合并 到 聚合 过 程 ， 从 而 强 
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硬 肾 类 基于 固定 分 配 。 因 此 ,样本 x; 总 是 属于 单个 聚 类 。 相 反 地 ， 软 聚 类 返 








等 级 向 


里 ， 








其 元 素 代表 每 个 聚 类 的 成 员 级 别 ， 例 如 (0.1,0.7,0.05;0.15)。 





剖 它 将 一 
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2. 错误 。Fuzzy c-means 是 K-means 的 扩展 ， 并 不 太 适 用 于 非 凸 几何 。 但 是 ， 软 分 配 
允许 评估 近邻 聚 类 的 影响 。 

3. 主要 假设 是 数据 集 可 以 从 一 种 分 布 中 绘制 , 该 分 布 可 以 用 多 个 高 斯 分 布 的 加 权 和 来 
有 效 的 近似 。 

4. 这 意味 着 第 一 个 模型 有 许多 参数 ， 是 第 二 个 模型 的 两 倍 。 

5. 第 二 个 ， 因 为 它 可 以 使 用 更 少 的 参数 来 实现 相同 的 结果 。 

6. 因为 我 们 想 要 使 用 这 样 的 模型 来 自动 选择 分 量 。 这 意味 着 我 们 想 要 从 更 多 的 权重 开 
始 ， 期 望 它 们 中 的 许多 权重 将 被 迫 接 近 0。 因 为 Dirichlet 分 布 具有 非常 稀疏 的 特性 并 且 在 
单纯 形式 上 运行 ， 所 以 它 是 先 验 的 最 佳 选择 。 

7. 如 果 它 们 是 从 相同 的 来 源 收集 的 并 且 标 记 的 内 容 是 被 验证 过 的 , 我 们 可 以 使 用 半 监 
督 方法 《例如 生成 高 斯 混合 )， 以 便 为 剩余 的 样本 找到 合适 的 标签 。 
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1. 由 于 随机 变量 明显 独立 ，P(Tall, Rain) = P(TaIDP(Rain) = 0.75。0.2 = 0.15。 

2. 直方 图 的 一 个 主要 缺点 是 ， 当 条 柱 的 数量 过 大 时 ， 很 多 条 柱 都 为 空 ， 因 为 在 所 有 值 
围 内 都 没有 样本 。 在 这 种 情况 下 , 蕊 的 基数 可 以 小 于 1000, 或 者 即使 有 超过 1000 个 的 样 
本 ， 相 对 频率 也 可 以 集中 在 小 于 1000 的 多 个 条 柱 中 。 

3. 样本 总 数 为 75， 并 且 条 柱 的 长 度 相等 。 因 此 , P(0 <x<2)=20/75=~ 0.27，P(C <x < 
4)=30/75=0.4 以 及 P(4 <x<6)=25/75 30.33。 由 于 我 们 没有 任何 样本 , 我 们 可 以 假设 P(x > 
6)=0, 因此 ,PK>2)=PC<x<4)+P4<x<0)=0.73。 我 们 立即 得 到 确认 ， 因 为 0.73x75 = 
55， 这 是 属于 x>2 的 条 柱 的 样本 数量 。 

4. 在 正 态 分 布 N(0, 1) 中 ， 最 大 密度 是 p(0) = 0.4。 在 大 约 3 个 标准 差 后 ，p(x) < 0; 因 
此 PC = 0.35 的 样本 x 通常 不 能 被 认 作 是 异常 。 

5， 当 min(std(2), IOR(2)11.34) = 2.24 时 ， 最 佳 带宽 为 h = 0.9 x 2.24 x 500 =0.58。 

6. 即使 可 以 使 用 高 斯 内 核 ， 根 据 给 定 分 布 的 描述 ， 我 们 应 该 首先 选择 指数 内 核 ， 其 允 
许 在 均值 周围 非常 快速 的 下 降 。 

7. 这 是 合乎 逻辑 的 结论 。 事 实 上 ， 在 新 值 的 情况 下 ， 我 们 应 该 期 望 新 的 样本 改变 分 布 ， 
以 便 对 新 值 进行 建 模 。 如 果 训 练 模型 后 概率 密度 仍然 很 低 ， 则 样本 很 可 能 是 异常 的 。 
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1. 协 方差 矩阵 











已 经 是 对 角 的 ， 
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特征 向 量 是 标准 























和 1。 因 此， x 轴 是 主 成 分 


2. 当 球 B05(0,0) 为 空 时 ， 









































，y 轴 
在 点 (0,0) 周 围 





是 次 成 分 。 




































































没有 样 








































































































的 x 和 yy 向 量 (1,0) 和 (0,1)， 特 和 
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An 让 是 2 
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EF 本 。 考 虑 到 水 平方 差 oe = 2， 我 们 可 以 


























想象 和 被 分 成 两 个 斑点 ， 因 此 可 以 想象 x= 0 的 线 是 水 平 鉴别 器 。 但 是 ， 这 只 是 一 种 假设 ， 
需要 通过 实际 数据 来 验证 。 

3. 错误 ， 它 们 并 不 是 独立 的 。PCA 之 后 的 协 方差 矩阵 不 是 相关 的 ， 但 不 保证 统计 的 
独立 性 。 

4. 正确 。Kurt(X%) 的 分 布 是 超 高 斯 分 布 ， 因 此 它 具 有 峰值 和 重 尾 。 这 保证 了 我 们 可 以 找 
到 独立 的 分 量 。 

5. 由 于 包含 负 元 素 ， 因 此 该 数据 集 不 可 能 使 用 NNMF 算法 。 

6. 该 字典 非 超 完备 。 由 于 字典 有 10 个 元 素 ， 这 意味 着 文档 是 由 许多 重复 的 术语 组 成 
的 ， 因 此 字典 是 非 超 完备 (10 < 30) 的 。 

7. 样本 (x, y) E 久 *?， 由 二 次 多 项 式 变换 为 (ax, by, cx”, dy”, exy,f) ER'。 
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1. 错误 ， 它 们 在 


的 内 部 结构 可 以 是 不 同 的 。 


























错误 。 Re 








人 分 ， 这 些 与 基 而 


的 





模型 








3. 当 min(sum(2))=0 Hmin(sum(z))) = 128 


























标准 差 大 ) 和 























以 被 认为 是 密集 的 。 


.错误 。Sanger 网 络 ( 以 及 Rubner-Tavan 网 络 ) 外 
6. 从 最 大 特征 值 到 最 小 特征 








值 ( 即 从 第 


部 分 丢失 了 ， 而 条 
4 一 起 对 所 有 转换 进行 


一 个 主 成 分 到 最 后 


G3 


I 余 的 信 | 
有 。 


0 
































有 较 小 值 的 均 有 分 布 ( 当 标准 差 接 近 
4. 当 sum(zi) = 36 时 ，std(zi) = 0.03 意味 着 大 多 数值 




















需要 输入 样 








结构 上 并 不 是 对 称 的。 编码 器 和 解码 器 都 必须 是 功能 对 称 的 ， 


恩 在 代码 输 


以 0.28(0.25:0.31) 为 


FE 本 x; € Xo 
一 个 主 成 分 )， 按 降序 提取 


但 它们 





出 了 和 自 编 


示 稀 压 〈 如 果 





h 心 ， 代 码 可 
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让 
扩 
二 





。 因 此 ， 无 须 进一步 分 析 来 确定 其 重要 性 。 



































7. 可 以 。 从 最 后 一 层 开始 ， 可 以 对 每 个 内 部 层 的 值 进行 采样 ， 直 到 第 一 层 。 通 过 选择 


每 个 概率 向 量 的 aremax(*) 来 获得 最 可 能 的 输入 值 。 












































10.9 第 9 章 


1. 错误 。 生 成 器 和 鉴别 器 在 功能 上 是 不 同 的 。 
2. 不 可 以 。 因 为 鉴别 器 的 输出 必须 是 一 个 概率 〈 即 pe (0, 1))。 


3. 

















正确 。 鉴 别 器 可 以 非常 快速 地 学 习 输 出 不 同 的 概率 ， 并 且 其 损失 函数 的 梯度 可 以 变 

















得 接近 0， 从 而 降低 提供 给 发 生 器 的 校正 反馈 的 幅度 。 
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5. 
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是 的 。 在 Wasserstein GAN 中 ， 评 价 器 在 训练 阶段 通常 很 慢 ， 
评价 器 速度 较 慢 ， 因 为 其 每 次 更 新 后 都 会 剪 切 变量 。 
由 于 支持 是 脱节 的 ， 所 以 Jensen-Shannon 散 度 等 于 log(2)。 
目标 是 开发 高 度 选 择 性 的 单元 ， 其 响应 仅 由 特定 特征 引起 。 
. 在 训练 过 程 的 早期 阶段 ， 不 可 能 知道 最 终 的 组 织 。 因 此 ， 强 人 迫 某 些 单元 过 早 专业 化 
































































































































并 不 是 一 种 好 的 做 法 。 调 整 阶段 允许 许多 神经 元 成 为 候选 者 ， 并 且 同 时 逐步 增加 最 有 希望 
的 神经 元 的 选择 性 ( 它 将 成 为 胜利 者 )。 











ET 上 二 el 
Unsupervised Learning with Python 


A A lol HE 


无 监督 学 习 是 一 种 机 器 学 习 算法 ， 它 使 用 原始 的 、 未 标记 的 数据 来 帮助 计算 机 预测 结果 。 通 过 阅读 本 书 ， 读 者 将 了 解 无 
监督 学 习 的 基础 知识 ， 并 运用 无 监督 学 习 算法 对 大 型 数据 集 进 行 聚 类 分 析 ， 直 到 找到 所 需 的 结果 为 止 。 


ee 、 无 监督 学 习 、 半 监督 学 习 之 间 的 主要 区 别 开 始 讲解 ， 陆 续 介 绍 了 Python 生态 系统 中 常用 的 库 和 框 

， 并 介绍 了 机 器 学 习 和 深度 学 习 中 的 无 监督 学 习 。 读 者 将 探索 各 种 算法 和 技术 ， 并 将 其 应 用 到 实际 案例 中 以 实现 无 监 
人 包括 随机 优化 、 聚 类 、 特 征 选择 和 转换 等 。 读 者 将 掌握 在 无 监督 情况 下 使 用 神经 网 络 的 经 验 ， 还 将 探索 构 
建 和 训练 生成 式 对 抗 网 络 ( Generative Adversarial Networks，GAN ) 来 处 理 图 像 的 方法 。 





过 阅读 本 书 ， 你 将 能 够 : 
里 使 用 聚 类 算法 来 识别 和 优化 自然 数据 组 合 ; 
和 在 实践 中 探索 高 级 非 线 性 聚 类 和 分 层 聚 类 ; 
和 了 解 模糊 C 均 值 聚 类 ( Fuzzy C-Mean，FCM ) 算法 和 高 斯 混合 模型 的 软 标签 分 配 ; 
里 通过 密度 估计 来 检测 异常 ; 
和 使 用 神经 网 络 模型 执行 主 成 分 分 析 ; 
里 使 用 生成 式 对 抗 网 络 ( GAN ) 创建 无 监督 模型 。 
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